减少后悔的双预言机在广义形式博弈中
摘要:双拉代码方法通过整合后悔最小化在正态形式游戏和广义形式游戏中展示了对纳什均衡的快速收敛,一些算法如在线双拉代码(ODO)和广义形式双拉代码(XDO)。在本研究中,我们进一步研究了这种基于后悔最小化的双拉代码方法的理论收敛速度和样本复杂度,利用一个统一的框架称为后悔最小化双拉代码。基于这个框架,我们将ODO扩展到广义形式游戏,并确定其样本复杂度。此外,我们证明了XDO的样本复杂度可以呈现指数级,与信息集数目$|S|$指数衰减的终止阈值有关。为了解决这个问题,我们提出了周期双拉代码(PDO)方法,它在基于后悔最小化的双拉代码方法中具有最低的样本复杂度,只是多项式级别的$|S|$。在多个扑克和棋盘游戏的实证评估中,PDO实现了比之前的双拉代码算法更快的收敛速度,并且达到了与最先进的后悔最小化方法相当的竞争水平。
作者:Xiaohang Tang, Le Cong Dinh, Stephen Marcus McAleer, Yaodong Yang
论文ID:2304.10498
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-07-14