对话式搜索的无奖励策略模仿学习-arXiv论文预印本中文版

对话式搜索的无奖励策略模仿学习

摘要：无奖励对话政策模仿学习框架：一种无需注释对话数据或手动设计奖励即可训练对话政策的方法

作者：Zhenduo Wang, Zhichao Xu, Qingyao Ai

论文ID：2304.07988

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-04-18

PDF 下载： 英文版中文版pdf翻译中