自适应引导与增强元学习的集成导航
摘要:一种基于强化元学习的自适应导航系统提出了一种新的方法,该方法使用了递归策略和值函数的逼近器。使用递归网络层可以使部署的策略能够实时适应作用在机器人上的环境力。我们在四个具有未知但高度可变动力学的具有挑战性的环境中比较了DR/DV导引法、具有非递归策略的RL代理和具有递归策略的RL代理的性能。这些任务包括在随机引擎故障情况下进行安全的火星着陆和在具有未知环境动力学的小行星上着陆。我们还演示了一种通过只使用多普勒雷达高度计读数的火星着陆环境和激光雷达高度计读数的小行星着陆环境来实现导引法的RL元学习优化策略的能力,从而实现导航和导引的整合。
作者:Brian Gaudet, Richard Linares, Roberto Furfaro
论文ID:1904.09865
分类:Systems and Control
分类简称:cs.SY
提交时间:2020-02-19