对抗性情境马尔可夫决策问题的高效速率最优遗憾,利用在线函数逼近

摘要:OMG-CMDP!算法:对抗性上下文MDP中的后悔最小化。

作者:Orin Levy, Alon Cohen, Asaf Cassel, Yishay Mansour

论文ID:2303.01464

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-15

PDF 下载: 英文版 中文版pdf翻译中