MANSA:多智能体系统中的快速与慢速学习

摘要:多智能体强化学习中,独立学习(IL)通常表现出卓越的性能,并且在智能体数量增加时很容易扩展。然而,使用IL可能效率低下,并有失败训练的风险,特别是在需要智能体协调行动的场景中。使用集中式学习(CL)使多智能体强化学习代理能够快速学习如何协调行为,但在现实世界的应用中,普遍采用CL通常是代价昂贵的。此外,使用基于值的方法的CL通常需要强大的表示性约束(例如个体-全局最大条件),如果违反这些约束,可能会导致性能下降。本文介绍了一种新颖的即插即用IL框架,名为多智能体网络选择算法(MANSA),它只在需要协调的状态下选择性地使用CL。MANSA的核心是引入了一个额外的代理,利用切换控制在训练过程中快速学习激活CL的最佳状态,仅在必要的情况下使用CL,极大减少了CL的计算负担。我们的理论证明了MANSA保持了合作式多智能体强化学习的收敛性质,提高了IL的性能,并且可以在固定预算的CL调用数量上得到最优利用。我们在基于关卡的觅食(LBF)和星际争霸多智能体挑战(SMAC)中进行了实证研究,结果表明MANSA在SMAC中减少了40%的CL调用,并且在LBF中仅使用了1%的CL调用,实现了快速、优越和更可靠的性能。

作者:David Mguni, Haojun Chen, Taher Jafferjee, Jianhong Wang, Long Fei, Xidong Feng, Stephen McAleer, Feifei Tong, Jun Wang, Yaodong Yang

论文ID:2302.05910

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2023-06-06

PDF 下载: 英文版 中文版pdf翻译中