强化学习中的通用效用策略梯度-arXiv论文预印本中文版

强化学习中的通用效用策略梯度

摘要：强化学习中非线性效用的策略梯度定理

作者：Navdeep Kumar, Kaixin Wang, Kfir Levy, Shie Mannor

论文ID：2210.00991

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中