术语集可成为自回归搜索引擎的强文档标识

摘要:自主回归搜索引擎是下一代信息检索系统的一个有前景的范例。这些方法使用Seq2Seq模型,其中每个查询可以直接映射到其相关文档的标识符。因此,它们被赞赏的优点包括可完全不同于其它问题的端到端差异性。然而,自主回归搜索引擎在检索质量方面也面临挑战,因为需要精确生成文档标识符。也就是说,在生成过程的任何步骤中,如果对其标识符做出错误预测,目标文档将在检索结果中被遗漏。在这项工作中,我们提出了一个新的框架,即AutoTSG(带有术语集生成的自主回归搜索引擎),它具有以下特点:1)无序基于术语的文档标识符;2)面向集合的生成流程。通过AutoTSG,对术语集标识符的任何排列都将导致检索到相应的文档,从而大大放宽了精确生成的要求。此外,Seq2Seq模型能够灵活地探索针对给定查询的文档标识符的最佳排列,这可能进一步提高检索质量。AutoTSG在自然问题和MS MARCO上进行了实证评估,与现有的自主回归搜索引擎相比,取得了显著的改进。

作者:Peitian Zhang, Zheng Liu, Yujia Zhou, Zhicheng Dou, Zhao Cao

论文ID:2305.13859

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-05-25

PDF 下载: 英文版 中文版pdf翻译中