基于NMPC和策略梯度的安全强化学习研究:第一部分 - 随机情况
摘要:使用演员-评论家技术部署随机策略梯度方法的方法论,当使用参数优化问题近似最优策略时,可以通过硬约束来强制实施安全措施。对于连续输入空间,对随机策略施加安全限制可能会使其密度的抽样和评估变得困难。本文提出了一种计算有效的方法来解决这个问题。我们将重点介绍基于鲁棒非线性模型预测控制(NMPC)的策略近似,其中可以明确处理安全性问题。为简洁起见,我们只详细介绍了鲁棒线性MPC情况下的安全策略。扩展到非线性情况是可能的,但更复杂。此外,我们还将介绍一种在鲁棒线性MPC环境中在学习过程中维持系统安全性的技术。本文还附带了一篇处理确定性策略梯度案例的伴随论文。
作者:Sebastien Gros, Mario Zanon
论文ID:1906.04057
分类:Systems and Control
分类简称:cs.SY
提交时间:2019-06-11