SCRIMP:基于强化学习和模仿学习的多智能体路径规划的可扩展通信
摘要:放弃性能保证,选择可扩展性,多智能体路径规划(MAPF)社区最近开始接受多智能体强化学习(MARL),其中代理学习协同生成各自的、无碰撞(但通常次优)路径。通常使用局部视野(FOV)的假设来实现可扩展性,帮助适应任意世界大小。然而,这种假设显著限制了代理所能获取的信息量,使得难以实施在更密集的MAPF任务中所需的联合机动。在本文中,我们提出了SCRIMP,代理学习个体策略,即使是非常小的(最小为3x3)FOV,依靠基于改进的Transformer的高度可扩展的全局/局部通信机制。我们还为代理配备了一种基于状态值的打破平局策略,以进一步提高对称情况下的性能,并引入内部奖励以鼓励探索并减轻长期信用分配问题。一系列实验的实证评估表明,与FOV更大的其他最先进的学习型MAPF规划器相比,SCRIMP可以在提高可扩展性的同时实现更高的性能,并且在许多情况下甚至可以产生与经典集中式规划器相似的性能。消融研究进一步验证了我们提出的技术的有效性。最后,我们展示了我们训练模型可以通过在gazebo中进行高度逼真的模拟,直接实现在真实机器人上进行在线MAPF规划。
作者:Yutong Wang, Bairan Xiang, Shinan Huang, Guillaume Sartoretti
论文ID:2303.00605
分类:Robotics
分类简称:cs.RO
提交时间:2023-09-01