联合国反地雷行动：无形合作场景下的多智能体强化学习-arXiv论文预印本中文版

联合国反地雷行动：无形合作场景下的多智能体强化学习

摘要：多智能体强化学习方法如VDN、QMIX和QTRAN采用了集中式训练和分散式执行（CTDE）框架，在合作与竞争中取得了令人兴奋的结果。然而，在某些多智能体场景中，智能体数量和动作集的大小实际上是随时间变化的。我们将这些未确定的场景称为非规整场景，并且上述方法在执行时没有令人满意的表现。在本文中，我们提出了一种新方法，称为适应多智能体系统变化的非规整网络（UNMAS）。我们提出了自适应权重混合网络来分解联合行动值。其适应智能体数量的能力归因于从每个智能体Q值到具有个体权重的联合行动值的非线性映射。此外，为了解决动作集的变化，每个智能体构建了一个由两个流组成的个体动作值网络，用于评估恒定的面向环境的子集和变化的面向单元的子集。我们在各种StarCraft II微管理场景中评估了UNMAS，并将结果与几种最先进的多智能体强化学习算法进行了比较。UNMAS的优势表现在其最高的获胜率，尤其是在最困难的场景3s5z_vs_3s6z上。智能体在学习有效的合作行为方面取得了成功，而其他多智能体强化学习算法则失败了。动画演示和源代码可在https://sites.google.com/view/unmas上找到。

作者：Jiajun Chai, Weifan Li, Yuanheng Zhu, Dongbin Zhao, Zhe Ma, Kewu Sun, Jishiyu Ding

论文ID：2203.14477

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-03-29

PDF 下载： 英文版中文版pdf翻译中