非平稳低秩MDPs的可证明高效算法

摘要:非平稳环境下的强化学习:基于时序低秩马尔可夫决策过程的研究。

作者:Yuan Cheng, Jing Yang, Yingbin Liang

论文ID:2308.05471

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-11

PDF 下载: 英文版 中文版pdf翻译中