重复博弈中的最终收敛和非即时遗憾在信息不对称下
摘要:一种考虑了一个玩家拥有比其他玩家更多关于游戏信息的重复博弈的方法。特别地,我们研究了重复二人零和游戏,在游戏中只有列玩家知道支付矩阵A。假设在重复玩这个游戏的过程中,行玩家通过使用一个无悔算法来选择她的策略,以最小化她的(伪)遗憾。我们为列玩家开发了一种无即时遗憾算法,以展示最后一轮收敛到极小极大均衡。我们证明我们的算法对于行玩家的大量流行无悔算法是高效的,包括乘法权重更新算法,在线镜像下降方法/按照正则化的领导者方法,线性乘法权重更新算法和乐观乘法权重更新算法。
作者:Le Cong Dinh, Long Tran-Thanh, Tri-Dung Nguyen, Alain B. Zemkoho
论文ID:2003.11727
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-02-16