SCRIMP：基于强化学习和模仿学习的多智能体路径规划的可扩展通信-arXiv论文预印本中文版

SCRIMP：基于强化学习和模仿学习的多智能体路径规划的可扩展通信

摘要：放弃性能保证，选择可扩展性，多智能体路径规划（MAPF）社区最近开始接受多智能体强化学习（MARL），其中代理学习协同生成各自的、无碰撞（但通常次优）路径。通常使用局部视野（FOV）的假设来实现可扩展性，帮助适应任意世界大小。然而，这种假设显著限制了代理所能获取的信息量，使得难以实施在更密集的MAPF任务中所需的联合机动。在本文中，我们提出了SCRIMP，代理学习个体策略，即使是非常小的（最小为3x3）FOV，依靠基于改进的Transformer的高度可扩展的全局/局部通信机制。我们还为代理配备了一种基于状态值的打破平局策略，以进一步提高对称情况下的性能，并引入内部奖励以鼓励探索并减轻长期信用分配问题。一系列实验的实证评估表明，与FOV更大的其他最先进的学习型MAPF规划器相比，SCRIMP可以在提高可扩展性的同时实现更高的性能，并且在许多情况下甚至可以产生与经典集中式规划器相似的性能。消融研究进一步验证了我们提出的技术的有效性。最后，我们展示了我们训练模型可以通过在gazebo中进行高度逼真的模拟，直接实现在真实机器人上进行在线MAPF规划。

作者：Yutong Wang, Bairan Xiang, Shinan Huang, Guillaume Sartoretti

论文ID：2303.00605

分类：Robotics

分类简称：cs.RO

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中