基于强化学习的多机器人系统可变视野模型预测控制与灵活按需避碰

摘要:多机器人系统在最近几年变得非常流行,因为它们具有广泛的应用领域,从监视到合作负载运输。模型预测控制(MPC)是一种有前瞻能力且能够轻松处理约束的多机器人控制器,具有很大的潜力。MPC的性能在很大程度上取决于许多参数,其中预测时域是主要贡献者。将预测时域增加到一定限度以上会大大增加计算成本。调整预测时域的值可能非常耗时,并且必须针对每个任务重复该调整过程。此外,如果可以在每个时间步对每个机器人使用不同的预测时域,可以建立更好的性能和计算成本之间的平衡。此外,对于这种多个机器人的可变预测时域MPC,按需避碰是关键需求。我们提出了一种多功能按需避碰(VODCA)策略,以符合可变时域模型预测控制。我们还提出了一个框架,使用Soft Actor-Critic (SAC)强化学习算法,将多机器人系统的预测时域作为机器人状态的函数进行学习。结果在不同的多机器人任务下进行了数值验证和演示。

作者:Shreyash Gupta, Abhinav Kumar, Niladri S. Tripathy, Suril V. Shah

论文ID:2308.07071

分类:Robotics

分类简称:cs.RO

提交时间:2023-08-15

PDF 下载: 英文版 中文版pdf翻译中