变量时间离散化的演员-评论家模型通过持续行动-arXiv论文预印本中文版

变量时间离散化的演员-评论家模型通过持续行动

摘要：连续时间下的强化学习方法（RL）需要定义一个特定的时间离散化过程，以应用于像机器人控制这样的本质连续的问题。在稀疏时间控制和更细粒度的时间控制之间存在选择，前者可能更容易训练，后者可能能够实现更好的终极性能。在这项工作中，我们提出了SusACER，这是一种离策略RL算法，它结合了不同时间离散化设置的优势。它最初使用稀疏时间离散化操作，并逐渐切换到更细的时间离散化。我们分析了时间离散化变化对机器人控制环境（Ant，HalfCheetah，Hopper和Walker2D）的影响。在所有情况下，我们提出的算法都优于现有技术水平。

作者：Jakub {L}yskawa, Pawe{l} Wawrzy''nski

论文ID：2308.04299

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-08-09

PDF 下载： 英文版中文版pdf翻译中