通过零和扩展形式博弈中的学习计算最优均衡和机制
摘要:通过学习在游戏中引入了一种计算最优均衡的新方法。它适用于任意数量的玩家的广义形式设置,包括机制设计、信息设计和解决方案概念,如相关、通信和认证均衡。我们观察到最优均衡是玩家在广义形式零和游戏中的最小极大均衡策略。这种重新制定允许应用零和游戏的学习技术,从而产生了第一个能够收敛到最优均衡的学习动态,不仅在经验平均值上,而且在迭代中也是如此。我们通过在基准图表游戏中实现最先进的性能,并使用深层强化学习计算出顺序拍卖设计问题的最佳机制,展示了我们方法的实际可扩展性和灵活性。
作者:Brian Hu Zhang, Gabriele Farina, Ioannis Anagnostides, Federico Cacciamani, Stephen Marcus McAleer, Andreas Alexander Haupt, Andrea Celli, Nicola Gatti, Vincent Conitzer, Tuomas Sandholm
论文ID:2306.05216
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-06-09