通过序列上的偏好查询学习奖励机器

摘要:用偏好学习奖励机制的新算法REMAP的摘要

作者:Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri

论文ID:2308.09301

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-21

PDF 下载: 英文版 中文版pdf翻译中