基于NMPC和策略梯度的安全强化学习:第二部分 - 确定性案例

摘要:使用演员-评论家技术,本文提出了一种部署确定性策略梯度方法的方法,其中使用参数优化问题来近似最优策略,通过硬限制来确保安全性。对于连续输入空间,对部署确定性策略梯度方法所需的探索施加安全限制会遇到一些技术困难,我们在这里解决了这个问题。我们将特别研究基于鲁棒非线性模型预测控制(NMPC)的策略近似,其中安全性可以明确处理。为了简洁起见,我们将仅详细说明在鲁棒线性MPC环境下的安全方案的构建。扩展到非线性情况是可能的,但更加复杂。此外,我们还将在鲁棒线性MPC的背景下介绍一种在学习过程中保持系统安全的技术。本文的伴随论文研究了随机策略梯度的情况。

作者:Sebastien Gros, Mario Zanon

论文ID:1906.04034

分类:Systems and Control

分类简称:cs.SY

提交时间:2019-06-11

PDF 下载: 英文版 中文版pdf翻译中