MANSA：多智能体系统中的快速与慢速学习-arXiv论文预印本中文版

MANSA：多智能体系统中的快速与慢速学习

摘要：多智能体强化学习中，独立学习（IL）通常表现出卓越的性能，并且在智能体数量增加时很容易扩展。然而，使用IL可能效率低下，并有失败训练的风险，特别是在需要智能体协调行动的场景中。使用集中式学习（CL）使多智能体强化学习代理能够快速学习如何协调行为，但在现实世界的应用中，普遍采用CL通常是代价昂贵的。此外，使用基于值的方法的CL通常需要强大的表示性约束（例如个体-全局最大条件），如果违反这些约束，可能会导致性能下降。本文介绍了一种新颖的即插即用IL框架，名为多智能体网络选择算法（MANSA），它只在需要协调的状态下选择性地使用CL。MANSA的核心是引入了一个额外的代理，利用切换控制在训练过程中快速学习激活CL的最佳状态，仅在必要的情况下使用CL，极大减少了CL的计算负担。我们的理论证明了MANSA保持了合作式多智能体强化学习的收敛性质，提高了IL的性能，并且可以在固定预算的CL调用数量上得到最优利用。我们在基于关卡的觅食（LBF）和星际争霸多智能体挑战（SMAC）中进行了实证研究，结果表明MANSA在SMAC中减少了40%的CL调用，并且在LBF中仅使用了1%的CL调用，实现了快速、优越和更可靠的性能。

作者：David Mguni, Haojun Chen, Taher Jafferjee, Jianhong Wang, Long Fei, Xidong Feng, Stephen McAleer, Feifei Tong, Jun Wang, Yaodong Yang

论文ID：2302.05910

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2023-06-06

PDF 下载： 英文版中文版pdf翻译中