分散的非通信多智能体深度强化学习碰撞回避-arXiv论文预印本中文版

分散的非通信多智能体深度强化学习碰撞回避

摘要：多智能体系统中寻找可行且无碰撞路径可能具有挑战性，特别是在非通信场景下，每个智能体的意图（例如目标）对其他智能体是不可观测的。特别是，寻找时间高效的路径通常需要预测与邻近智能体的互动，这个过程可能具有计算上的限制。本文提出了一种基于深度强化学习的分散式多智能体避障算法，有效地将在线计算（用于预测互动模式）外包给离线学习过程。具体而言，所提出的方法开发了一个值网络，该网络根据智能体与其邻居的联合配置（位置和速度）估计到达目标所需的时间。使用值网络不仅允许高效（即实时可行）地查询以找到无碰撞速度向量，还考虑了其他智能体运动的不确定性。仿真结果显示，与最优互逆碰撞避免（ORCA）——一种先进的碰撞避免策略相比，路径质量（即到达目标所需的时间）提高了超过26%。

作者：Yu Fan Chen, Miao Liu, Michael Everett, and Jonathan P. How

论文ID：1609.07845

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2016-09-29

PDF 下载： 英文版中文版pdf翻译中