多人有限信息不完全博弈中基于得分的均衡学习-arXiv论文预印本中文版

多人有限信息不完全博弈中基于得分的均衡学习

摘要：实时游戏是人们在现实世界中玩的游戏，它们涉及到不完全信息、多个玩家和同时行动等特点。然而，在现有的博弈论文献中，对于实时游戏的讨论较少。虽然强化学习（RL）提供了一般性的框架来扩展博弈论算法，但是保证其收敛到纳什均衡的假设在实时游戏中可能不再成立。本文从纳什分配的定义出发，构建了一种连续时间动态模型，命名为不完全信息指数衰减基于分数的学习（IESL），以找到具有上述特点的游戏中的近似纳什均衡。理论分析表明，在具有凹性基本假设的不完全信息同时游戏中，IESL能够产生接近纳什均衡的策略。实验结果表明，在四个经典扑克场景中，IESL能够找到近似纳什均衡，并且在3人Leduc扑克中明显优于其他三个代表性算法，表现出在实际的序列游戏中找到均衡的能力。此外，从理论和实验的角度来看，在IESL动态的收敛和最终收敛策略的纳什条件之间存在权衡。

作者：Runyu Lu, Yuanheng Zhu, Dongbin Zhao

论文ID：2306.00350

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2023-06-02

PDF 下载： 英文版中文版pdf翻译中