NVIF:用于大规模合作多智能体场景的邻域变分信息流

摘要:通信为基础的多智能体强化学习(MARL)提供了智能体之间的信息交流,促进了合作。然而,现有方法在大规模多智能体系统中表现不佳。本文采用相邻通信并提出了一种相邻变分信息流(NVIF)来为智能体提供高效的通信。它采用变分自编码器将共享信息压缩为潜在状态。该通信协议不依赖于特定的任务,因此可以进行预训练以稳定MARL训练。此外,我们将NVIF与Proximal Policy Optimization(NVIF-PPO)和Deep Q Network(NVIF-DQN)相结合,并提出了一个理论分析,以说明NVIF-PPO可以促进合作。我们通过在具有不同地图尺寸的两个任务上评估NVIF-PPO和NVIF-DQN在MAgent上,这是一个广泛使用的大规模多智能体环境。实验证明,我们的方法优于其他比较方法,并可以在大规模多智能体系统中学习到有效且可扩展的合作策略。

作者:Jiajun Chai, Yuanheng Zhu, Dongbin Zhao

论文ID:2207.00964

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2022-07-05

PDF 下载: 英文版 中文版pdf翻译中