NVIF：用于大规模合作多智能体场景的邻域变分信息流-arXiv论文预印本中文版

NVIF：用于大规模合作多智能体场景的邻域变分信息流

摘要：通信为基础的多智能体强化学习（MARL）提供了智能体之间的信息交流，促进了合作。然而，现有方法在大规模多智能体系统中表现不佳。本文采用相邻通信并提出了一种相邻变分信息流（NVIF）来为智能体提供高效的通信。它采用变分自编码器将共享信息压缩为潜在状态。该通信协议不依赖于特定的任务，因此可以进行预训练以稳定MARL训练。此外，我们将NVIF与Proximal Policy Optimization（NVIF-PPO）和Deep Q Network（NVIF-DQN）相结合，并提出了一个理论分析，以说明NVIF-PPO可以促进合作。我们通过在具有不同地图尺寸的两个任务上评估NVIF-PPO和NVIF-DQN在MAgent上，这是一个广泛使用的大规模多智能体环境。实验证明，我们的方法优于其他比较方法，并可以在大规模多智能体系统中学习到有效且可扩展的合作策略。

作者：Jiajun Chai, Yuanheng Zhu, Dongbin Zhao

论文ID：2207.00964

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-07-05

PDF 下载： 英文版中文版pdf翻译中