学习与想象力：安全集合引导的状态限制策略优化-arXiv论文预印本中文版

学习与想象力：安全集合引导的状态限制策略优化

摘要：深度强化学习在各种控制任务中表现出色，但缺乏安全保证限制了其在实际应用中的可行性。特别是，在学习过程中的探索通常会导致安全违规，而强化学习代理从这些错误中学习。另一方面，安全控制技术确保持续的安全满足，但需要对系统动态具有强大的先验知识，这在实践中通常很难获得。为了解决这些问题，我们提出了一种新的算法Safe Set Guided State-wise Constrained Policy Optimization (S-3PO)，该算法生成基于状态的安全最优策略，且没有训练违规，即在没有错误的情况下进行学习。S-3PO首先使用以安全为导向的黑盒动力学监视器来保证安全探索。然后，它强制要求强化学习代理在安全约束下收敛到最优行为。S-3PO在高维机器人任务中表现优于现有方法，以零训练违规管理基于状态的约束。这一创新意味着向实际安全强化学习部署迈出了重要一步。

作者：Weiye Zhao, Yifan Sun, Feihan Li, Rui Chen, Tianhao Wei, Changliu Liu

论文ID：2308.13140

分类：Robotics

分类简称：cs.RO

提交时间：2023-08-28

PDF 下载： 英文版中文版pdf翻译中