强化学习中的通用效用策略梯度

摘要:强化学习中非线性效用的策略梯度定理

作者:Navdeep Kumar, Kaixin Wang, Kfir Levy, Shie Mannor

论文ID:2210.00991

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中