基于NMPC和策略梯度的安全强化学习研究：第一部分 - 随机情况-arXiv论文预印本中文版

基于NMPC和策略梯度的安全强化学习研究：第一部分 - 随机情况

摘要：使用演员-评论家技术部署随机策略梯度方法的方法论，当使用参数优化问题近似最优策略时，可以通过硬约束来强制实施安全措施。对于连续输入空间，对随机策略施加安全限制可能会使其密度的抽样和评估变得困难。本文提出了一种计算有效的方法来解决这个问题。我们将重点介绍基于鲁棒非线性模型预测控制（NMPC）的策略近似，其中可以明确处理安全性问题。为简洁起见，我们只详细介绍了鲁棒线性MPC情况下的安全策略。扩展到非线性情况是可能的，但更复杂。此外，我们还将介绍一种在鲁棒线性MPC环境中在学习过程中维持系统安全性的技术。本文还附带了一篇处理确定性策略梯度案例的伴随论文。

作者：Sebastien Gros, Mario Zanon

论文ID：1906.04057

分类：Systems and Control

分类简称：cs.SY

提交时间：2019-06-11

PDF 下载： 英文版中文版pdf翻译中