非平稳低秩MDPs的可证明高效算法-arXiv论文预印本中文版

非平稳低秩MDPs的可证明高效算法

摘要：非平稳环境下的强化学习：基于时序低秩马尔可夫决策过程的研究。

作者：Yuan Cheng, Jing Yang, Yingbin Liang

论文ID：2308.05471

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-11

PDF 下载： 英文版中文版pdf翻译中