术语集可成为自回归搜索引擎的强文档标识-arXiv论文预印本中文版

术语集可成为自回归搜索引擎的强文档标识

摘要：自主回归搜索引擎是下一代信息检索系统的一个有前景的范例。这些方法使用Seq2Seq模型，其中每个查询可以直接映射到其相关文档的标识符。因此，它们被赞赏的优点包括可完全不同于其它问题的端到端差异性。然而，自主回归搜索引擎在检索质量方面也面临挑战，因为需要精确生成文档标识符。也就是说，在生成过程的任何步骤中，如果对其标识符做出错误预测，目标文档将在检索结果中被遗漏。在这项工作中，我们提出了一个新的框架，即AutoTSG（带有术语集生成的自主回归搜索引擎），它具有以下特点：1）无序基于术语的文档标识符；2）面向集合的生成流程。通过AutoTSG，对术语集标识符的任何排列都将导致检索到相应的文档，从而大大放宽了精确生成的要求。此外，Seq2Seq模型能够灵活地探索针对给定查询的文档标识符的最佳排列，这可能进一步提高检索质量。AutoTSG在自然问题和MS MARCO上进行了实证评估，与现有的自主回归搜索引擎相比，取得了显著的改进。

作者：Peitian Zhang, Zheng Liu, Yujia Zhou, Zhicheng Dou, Zhao Cao

论文ID：2305.13859

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-05-25

PDF 下载： 英文版中文版pdf翻译中