多人有限信息不完全博弈中基于得分的均衡学习

摘要:实时游戏是人们在现实世界中玩的游戏,它们涉及到不完全信息、多个玩家和同时行动等特点。然而,在现有的博弈论文献中,对于实时游戏的讨论较少。虽然强化学习(RL)提供了一般性的框架来扩展博弈论算法,但是保证其收敛到纳什均衡的假设在实时游戏中可能不再成立。本文从纳什分配的定义出发,构建了一种连续时间动态模型,命名为不完全信息指数衰减基于分数的学习(IESL),以找到具有上述特点的游戏中的近似纳什均衡。理论分析表明,在具有凹性基本假设的不完全信息同时游戏中,IESL能够产生接近纳什均衡的策略。实验结果表明,在四个经典扑克场景中,IESL能够找到近似纳什均衡,并且在3人Leduc扑克中明显优于其他三个代表性算法,表现出在实际的序列游戏中找到均衡的能力。此外,从理论和实验的角度来看,在IESL动态的收敛和最终收敛策略的纳什条件之间存在权衡。

作者:Runyu Lu, Yuanheng Zhu, Dongbin Zhao

论文ID:2306.00350

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-06-02

PDF 下载: 英文版 中文版pdf翻译中