利用鸟瞰视角状态表示高效学习城市驾驶策略
摘要:自主驾驶涉及到在高度互动的环境中进行复杂的决策,需要与其他交通参与者进行深思熟虑的协商。虽然强化学习为学习这种交互行为提供了一种方法,但有效的学习关键取决于可扩展的状态表示。与模仿学习方法相反,高维状态表示仍然是自主驾驶中深度强化学习方法的主要瓶颈。在本文中,我们研究了为自主驾驶构建鸟瞰图表示的挑战,并提出了一种用于长期驾驶的循环学习架构。我们基于PPO的方法称为RecurrDriveNet,在CARLA的仿真自主驾驶任务中进行了演示,在只需要一百万经验进行高效训练的同时,优于传统的帧堆叠方法。RecurrDriveNet通过与其他道路使用者安全交互,在每驾驶公里内造成不到一次违规行为。
作者:Raphael Trumpp, Martin B"uchner, Abhinav Valada, Marco Caccamo
论文ID:2305.19904
分类:Robotics
分类简称:cs.RO
提交时间:2023-08-16