变量时间离散化的演员-评论家模型通过持续行动
摘要:连续时间下的强化学习方法(RL)需要定义一个特定的时间离散化过程,以应用于像机器人控制这样的本质连续的问题。在稀疏时间控制和更细粒度的时间控制之间存在选择,前者可能更容易训练,后者可能能够实现更好的终极性能。在这项工作中,我们提出了SusACER,这是一种离策略RL算法,它结合了不同时间离散化设置的优势。它最初使用稀疏时间离散化操作,并逐渐切换到更细的时间离散化。我们分析了时间离散化变化对机器人控制环境(Ant,HalfCheetah,Hopper和Walker2D)的影响。在所有情况下,我们提出的算法都优于现有技术水平。
作者:Jakub {L}yskawa, Pawe{l} Wawrzy''nski
论文ID:2308.04299
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-08-09