分散的非通信多智能体深度强化学习碰撞回避

摘要:多智能体系统中寻找可行且无碰撞路径可能具有挑战性,特别是在非通信场景下,每个智能体的意图(例如目标)对其他智能体是不可观测的。特别是,寻找时间高效的路径通常需要预测与邻近智能体的互动,这个过程可能具有计算上的限制。本文提出了一种基于深度强化学习的分散式多智能体避障算法,有效地将在线计算(用于预测互动模式)外包给离线学习过程。具体而言,所提出的方法开发了一个值网络,该网络根据智能体与其邻居的联合配置(位置和速度)估计到达目标所需的时间。使用值网络不仅允许高效(即实时可行)地查询以找到无碰撞速度向量,还考虑了其他智能体运动的不确定性。仿真结果显示,与最优互逆碰撞避免(ORCA)——一种先进的碰撞避免策略相比,路径质量(即到达目标所需的时间)提高了超过26%。

作者:Yu Fan Chen, Miao Liu, Michael Everett, and Jonathan P. How

论文ID:1609.07845

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2016-09-29

PDF 下载: 英文版 中文版pdf翻译中