摘要:无奖励对话政策模仿学习框架:一种无需注释对话数据或手动设计奖励即可训练对话政策的方法
作者:Zhenduo Wang, Zhichao Xu, Qingyao Ai
论文ID:2304.07988
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-04-18
PDF 下载: 英文版 中文版pdf翻译中