强化学习控制器在动态环境中的一致性预测安全过滤器-arXiv论文预印本中文版

强化学习控制器在动态环境中的一致性预测安全过滤器

摘要：基于强化学习控制器在安全关键应用中的兴趣，如机器人在行人周围的导航，推动了额外安全机制的开发。在不确定的动态代理之间运行强化学习系统可能导致高碰撞次数和无法达到目标的失败。如果预训练的强化学习策略是具有不确定性信息的，系统可能更安全。因此，我们提出了一种符合预测安全过滤器的方法：1）预测其他代理的轨迹，2）使用统计技术在这些预测周围提供不确定性间隔，3）学习一个附加的安全过滤器，它紧密跟随强化学习控制器但避免了不确定性间隔。我们使用符合预测来学习不具有关于代理分布的假设的不确定性信息预测安全过滤器。该框架是模块化的，并且在仿真中优于现有的控制器。我们在避碰环境中进行了多个实验来演示我们的方法，并显示我们的方法最小化了碰撞次数而不进行过分保守的预测。

作者：Kegan J. Strawn, Nora Ayanian and Lars Lindemann

论文ID：2306.02551

分类：Robotics

分类简称：cs.RO

提交时间：2023-08-24

PDF 下载： 英文版中文版pdf翻译中