联合国反地雷行动:无形合作场景下的多智能体强化学习
摘要:多智能体强化学习方法如VDN、QMIX和QTRAN采用了集中式训练和分散式执行(CTDE)框架,在合作与竞争中取得了令人兴奋的结果。然而,在某些多智能体场景中,智能体数量和动作集的大小实际上是随时间变化的。我们将这些未确定的场景称为非规整场景,并且上述方法在执行时没有令人满意的表现。在本文中,我们提出了一种新方法,称为适应多智能体系统变化的非规整网络(UNMAS)。我们提出了自适应权重混合网络来分解联合行动值。其适应智能体数量的能力归因于从每个智能体Q值到具有个体权重的联合行动值的非线性映射。此外,为了解决动作集的变化,每个智能体构建了一个由两个流组成的个体动作值网络,用于评估恒定的面向环境的子集和变化的面向单元的子集。我们在各种StarCraft II微管理场景中评估了UNMAS,并将结果与几种最先进的多智能体强化学习算法进行了比较。UNMAS的优势表现在其最高的获胜率,尤其是在最困难的场景3s5z_vs_3s6z上。智能体在学习有效的合作行为方面取得了成功,而其他多智能体强化学习算法则失败了。动画演示和源代码可在https://sites.google.com/view/unmas上找到。
作者:Jiajun Chai, Weifan Li, Yuanheng Zhu, Dongbin Zhao, Zhe Ma, Kewu Sun, Jishiyu Ding
论文ID:2203.14477
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2022-03-29