高阶解耦动力学并不导致纳什均衡--除非它们确实导致

摘要:多智能体学习的框架探索了个体智能体如何根据其他智能体的演化策略来改变策略的动态。特别感兴趣的是智能体策略是否收敛到诸如纳什均衡(NE)等已知解概念。大多数“固定顺序”学习动态将智能体的底层状态限制为其自身策略。在“高阶”学习中,智能体动态可以包括可以捕捉路径依赖性等现象的辅助状态。我们引入了类似于带有辅助状态的投影梯度上升的高阶梯度对弈动态。该动态是“基于回报”的,因为每个智能体的动态取决于自身演化的回报。虽然这些回报取决于游戏中其他智能体的策略,但智能体的动态并不明确取决于游戏的性质或其他智能体的策略。从这个意义上说,动态是“解耦”的,因为智能体的动态并不明确依赖于其他智能体的效用函数。我们首先证明,对于具有独立完全混合策略NE的任何特定游戏,存在高阶梯度对弈动态(局部地)导致该NE,无论是对于特定的游戏还是对于具有扰动效用函数的附近游戏。相反,我们证明对于任何高阶梯度对弈动态,存在一个具有唯一孤立完全混合策略NE的游戏,该动态不导致NE。这些结果基于先前的研究,该研究表明解耦的固定顺序学习在某些情况下不能导致NE,而高阶变体可以。最后,我们考虑与协调博弈相关的混合策略平衡。虽然高阶梯度对弈可以收敛到这种平衡,但我们证明这样的动态在本质上是内部不稳定的。

作者:Sarah A. Toonsi, Jeff S. Shamma

论文ID:2304.04282

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-05-30

PDF 下载: 英文版 中文版pdf翻译中