从基于模型的规划中提炼出的理论上有保证的策略改进
摘要:基于模型的强化学习对于一系列连续控制任务表现出卓越的样本效率。为了节省在线进行计划的计算成本,最近的实践倾向于在训练阶段将优化的动作序列提炼为强化学习策略。尽管这种提炼可以融合计划的前瞻性和强化学习策略的探索能力,但对这些方法的理论理解仍不清楚。本文通过发展一种从基于模型规划中提炼策略的方法,来扩展Soft Actor-Critic(SAC)的策略改进步骤。然后,我们证明了这种策略改进方法具有单调改进和收敛到SAC中定义的最大值的理论保证。我们讨论了有效的设计选择,并将我们的理论实现为一个实用的算法--基于模型规划提炼策略(MPDP),该算法在多个未来时间步骤上联合更新策略。大量实验证明,MPDP在MuJoCo的六个连续控制基准任务上实现了比无模型和基于模型规划算法更好的样本效率和渐近性能。
作者:Chuming Li, Ruonan Jia, Jie Liu, Yinmin Zhang, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang
论文ID:2307.12933
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-25