对话式搜索的无奖励策略模仿学习

摘要:无奖励对话政策模仿学习框架:一种无需注释对话数据或手动设计奖励即可训练对话政策的方法

作者:Zhenduo Wang, Zhichao Xu, Qingyao Ai

论文ID:2304.07988

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-04-18

PDF 下载: 英文版 中文版pdf翻译中