强化学习船舶自动驾驶：基于样本高效和模型预测控制的方法-arXiv论文预印本中文版

强化学习船舶自动驾驶：基于样本高效和模型预测控制的方法

摘要：样本高效的概率模型预测控制方法用于自主控制真实大小的船只摘要: 在这项研究中，我们专注于为一项具有挑战性的任务——自主控制真实大小的船只开发一种强化学习系统，该任务面临来自具有大量不确定性的挑战性海洋环境和真实船只探索和采样成本极高的困难。为此，我们探索了一种基于高斯过程（GP）的新型强化学习方法，它结合了高效的基于模型的强化学习和模型预测控制（MPC）。我们的方法，样本高效的概率模型预测控制（SPMPC），迭代地学习高斯过程动力学模型，并利用它在MPC闭环控制中高效更新控制信号。我们构建了一个使用SPMPC的系统，以高效学习自动驾驶任务。在以真实驾船数据为模型的仿真中研究其性能后，所提出的系统成功地学会在没有人类示范的自动驾驶任务中驾驶配备单发动机和测量GPS、速度、方向和风向的传感器的真实大小船只。

作者：Yunduan Cui, Shigeki Osaki, Takamitsu Matsubara

论文ID：1901.07905

分类：Systems and Control

分类简称：cs.SY

提交时间：2019-07-24

PDF 下载： 英文版中文版pdf翻译中