学习与想象力:安全集合引导的状态限制策略优化
摘要:深度强化学习在各种控制任务中表现出色,但缺乏安全保证限制了其在实际应用中的可行性。特别是,在学习过程中的探索通常会导致安全违规,而强化学习代理从这些错误中学习。另一方面,安全控制技术确保持续的安全满足,但需要对系统动态具有强大的先验知识,这在实践中通常很难获得。为了解决这些问题,我们提出了一种新的算法Safe Set Guided State-wise Constrained Policy Optimization (S-3PO),该算法生成基于状态的安全最优策略,且没有训练违规,即在没有错误的情况下进行学习。S-3PO首先使用以安全为导向的黑盒动力学监视器来保证安全探索。然后,它强制要求强化学习代理在安全约束下收敛到最优行为。S-3PO在高维机器人任务中表现优于现有方法,以零训练违规管理基于状态的约束。这一创新意味着向实际安全强化学习部署迈出了重要一步。
作者:Weiye Zhao, Yifan Sun, Feihan Li, Rui Chen, Tianhao Wei, Changliu Liu
论文ID:2308.13140
分类:Robotics
分类简称:cs.RO
提交时间:2023-08-28