线性马尔可夫决策过程的速率最优策略优化
摘要:在线连续线性马尔可夫决策过程中,我们研究了最小化后悔的问题,并获得了速率最优的 $widetilde O (sqrt K)$ 后悔,其中 $K$ 表示剧集的数量。我们的工作是第一个在随机设置下,使用基于策略优化的方法建立起与 $K$ 最优的收敛速率,且在拥有完全信息反馈的对抗环境中建立起与 $K$ 最优的收敛速率,目前尚未知道具有最优速率保证的算法。
作者:Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour
论文ID:2308.14642
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-29