零和多态马尔可夫博弈中策略优化的近最优收敛性
摘要:计算多人一般和马尔科夫博弈中的近似纳什均衡是一个难以处理的任务。然而,具有特定合作或竞争结构的多人马尔科夫博弈可能会避免这种难以处理性。在本文中,我们专注于多人零和多矩阵马尔科夫博弈,其中玩家以成对方式进行交互,同时保持总体上的竞争性。据我们所知,我们提出了首个政策优化算法,称为熵正则化乐观乘法权重更新(ER-OMWU),用于在具有完全信息反馈的有限时间零和多矩阵马尔科夫博弈中寻找近似纳什均衡。我们提供了最后一次迭代收敛的保证,以在$epsilon$近似纳什均衡中找到一个$ilde{O}(1/epsilon)$迭代,与在两人零和马尔科夫博弈中的最优$O(1/epsilon)$迭代复杂度相比,这是接近最优的,两人零和马尔科夫博弈是只有两个玩家参与的多矩阵博弈的退化情况。我们的算法结合了规则化和乐观学习动态,以及在单个循环中分离的平滑值更新,玩家以对称和几乎无耦合的方式更新策略。它为寻找均衡提供了自然的动态,更有可能适应样本高效和完全分散的实现,其中将来只有部分信息反馈可用。
作者:Zailin Ma, Jiansheng Yang, Zhihua Zhang
论文ID:2308.07873
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-08-17