超越严格竞争:多智能体 Q-Learning 动态的近似收敛
摘要:多智能体学习在竞争环境中的行为通常在零和博弈的严格假设下进行考虑。只有在这种严格要求下,学习的行为才能被很好地理解;除此之外,学习动力学往往会展示出不收敛的行为,从而阻止了固定点分析。然而,许多相关的竞争游戏并不满足零和假设。 为了解决这个问题,我们研究了一个平滑变体的Q-Learning,这是一种流行的强化学习动力学,它在权衡代理商最大化收益与探索状态空间的倾向方面起到了平衡作用。我们在与网络零和博弈“接近”的游戏中研究了这个动态,发现Q-Learning收敛到一个唯一均衡点附近的邻域。邻域的大小由与零和博弈的“距离”以及代理商的探索率决定。我们通过提供一种方法来补充这些结果,该方法可以在给定任意网络游戏的情况下有效地找到“最近”的网络零和游戏。正如我们的实验证明的那样,这些保证不依赖于动力学是否最终达到均衡或保持不收敛。
作者:Aamal Hussain, Francesco Belardinelli and Georgios Piliouras
论文ID:2307.13928
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-07-27