连续博弈中耦合信念-策略学习动态的收敛性和稳定性
摘要:建议采用一种学习动态模型来描述战略性代理人在依靠信息平台学习未知收益相关参数的情况下如何反复进行连续游戏。在每个时间步骤中,信息平台根据玩家的策略和实现的收益利用贝叶斯定理更新参数的信念估计。然后,玩家根据更新后的信念采用一种通用的学习规则调整策略。我们展示了关于信念和策略的收敛性以及动力学的收敛不动点的性质。我们得到了全局稳定不动点存在的充分必要条件。我们还提供了不动点局部稳定的充分条件。这些结果提供了分析贝叶斯信念学习和策略学习在游戏中相互作用所产生的长期结果的方法,并使我们能够描述学习导致完全信息均衡的条件。
作者:Manxi Wu, Saurabh Amin, and Asuman Ozdaglar
论文ID:2206.05637
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2022-06-14