自动驾驶在非信号路口的阶段衰减剪裁下的课程近端策略优化
摘要:无信号路口通常被认为是自动驾驶车辆面临的最具代表性和具有挑战性的场景之一。为了解决在这种场景下的自动驾驶问题,本文提出了一种具有阶段衰减剪辑的课程近端策略优化(CPPO)框架。通过在训练的不同阶段调整剪辑参数,通过近端策略优化(PPO)方法,车辆可以首先使用较大的参数快速搜索近似最优策略或其邻域,然后使用较小的参数收敛到最优策略。尤其是,基于阶段的课程学习技术被纳入到提出的框架中,以提高泛化性能和加速训练过程。此外,奖励函数针对不同的课程设置进行了特别设计。在具有双车道路面的交叉口穿越场景中进行了一系列比较实验,以验证所提出的CPPO方法的有效性。结果显示,所提出的方法在不同动态和复杂环境下表现出更强的适应性,并且比基准方法具有更快的训练速度。
作者:Zengqi Peng, Xiao Zhou, Yubin Wang, Lei Zheng, Ming Liu, Jun Ma
论文ID:2308.16445
分类:Robotics
分类简称:cs.RO
提交时间:2023-09-01