众多策略性代理系统中的去中心化学习

摘要:多智能体强化学习在处理战略性互动实体系统方面存在可伸缩性不足和缺乏严格收敛保证的问题。在智能体数量增加时,由于状态-动作空间的规模爆炸,多智能体系统的学习可能变得难以处理。本文提出了一种在多智能体系统中计算闭环最优策略的方法,该方法与智能体数量无关。这使得我们首次展示了在具有无限数量相互适应学习者的系统中成功收敛到最优行为。通过研究N个玩家随机博弈的渐近区域,我们设计了一种学习协议,可以保证收敛到均衡策略,即使智能体数量非常大。我们的方法是无模型且完全分散的,每个智能体只需观察本地状态信息和实现的奖励。我们通过展示在经济学和控制理论中具有数千个战略互动智能体的应用中收敛到纳什均衡策略来验证这些理论结果。

作者:David Mguni, Joel Jennings, Enrique Munoz de Cote

论文ID:1803.05028

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2018-03-15

PDF 下载: 英文版 中文版pdf翻译中