自动驾驶车辆的安全关键控制的强化学习
摘要:基于数据驱动的决策功能的开发、验证和部署方法:基于人造神经网络的决策功能经过训练,可以将移动机器人SPIDER引导到预定义的静态路径上的目标点,同时避免与路径上的障碍物发生碰撞。训练使用了来自强化学习领域的最先进算法——近策略优化(PPO)。通过使用衡量控制器遵循给定路径的能力和对路径上感知到的障碍物的反应性的关键绩效指标对其进行验证。相应的测试在训练环境中进行。此外,测试还应该在机器人情境Gazebo和真实世界场景中进行。对于后者,控制器部署在基于FPGA的开发平台FRACTAL上,并集成到SPIDER软件堆栈中。
作者:Florian Thaler (1), Franz Rammerstorfer (1), Jon Ander Gomez (2), Raul Garcia Crespo (2), Leticia Pasqual (2) and Markus Postl (1) ((1) Virtual Vehicle Research GmbH, (2) Solver Intelligent Analytics)
论文ID:2308.16767
分类:Robotics
分类简称:cs.RO
提交时间:2023-09-01