线性马尔可夫决策过程的速率最优策略优化-arXiv论文预印本中文版

线性马尔可夫决策过程的速率最优策略优化

摘要：在线连续线性马尔可夫决策过程中，我们研究了最小化后悔的问题，并获得了速率最优的 $widetilde O (sqrt K)$ 后悔，其中 $K$ 表示剧集的数量。我们的工作是第一个在随机设置下，使用基于策略优化的方法建立起与 $K$ 最优的收敛速率，且在拥有完全信息反馈的对抗环境中建立起与 $K$ 最优的收敛速率，目前尚未知道具有最优速率保证的算法。

作者：Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour

论文ID：2308.14642

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中