济南建设网站公司,长春网络公司十大排名,整站优化加盟,wordpress北欧控在介绍CFR算法之前#xff0c;我们首先介绍一下基础概念。在CFR算法中#xff0c;counterfactual utility被定义为以下形式#xff1a;然后在regret的基础上#xff0c;CFR算法定义了一个regretlike value#xff0c;注意在这里CFR算法的regret为一个累加值#xff0c;而…在介绍CFR算法之前我们首先介绍一下基础概念。在CFR算法中counterfactual utility被定义为以下形式然后在regret的基础上CFR算法定义了一个regretlike value注意在这里CFR算法的regret为一个累加值而CFR算法定义的regret为平均值需要乘以1t ,where 另外在CFR算法中最后输出的平均策略为以下形式然后CFR算法的bound为bound证明在对Lemma 1的证明过程中我们可以得出以下结论我们得到了 之后我们可以从Lemma 1可知 于是我们得出以下结论然后我们引入Lemma 3 Lemma 3很容易证明可以直接看出然后证明Lemma 4Lemma 4的证明就是将原有的序列扩充为123。。。T这样的话等于有T^2T/2的过程然后我们再引入Lemma 3这样的就可以求出新的bound然后我们由CFR算法的定义可知于是可以得到新的 结论从CFR算法和CFR算法的证明过程中我们可以获取以下证明过程范式。首先定义average overall regret因为直接优化average overall regret困难然后我们定义immediate counterfactual regret并且最优化他但是优化这个困难于是我们优化他的拟合项counterfactual regret使其小于 就可以得到 。记住这样的话counterfactual regret必须除t作为一个平均值而CFR算法直接将其作为了累加项。在CFR算法中我们的counterfactual regret没有除t。但是我们得到了一个结论然后我们计算累加的counterfactual regret为了求出上面公式的bound我们一般需要Lemma 3而在LCFR中需要在Lemma 3的基础上进行进一步的扩展。然后我们证明 于是得到 。