学习稀疏检索的统一框架-arXiv论文预印本中文版

学习稀疏检索的统一框架

摘要：学习稀疏检索（LSR）是一类用于生成查询和文档的稀疏词汇表示的第一阶段检索方法，用于倒排索引。近年来，引入了许多LSR方法，其中Splade模型在MSMarco上实现了最先进的性能。尽管这些LSR方法在模型结构上有相似之处，但在效果和效率上仍存在相当大的差异。由于实验设置和配置的差异，很难对这些方法进行比较和洞察。在这项工作中，我们分析了现有的LSR方法，并确定了建立统一所有LSR方法的LSR框架的关键组成部分。然后，我们使用一个共同的代码库重新实现了所有著名的方法，并在同一环境中对它们进行重新训练，这样可以量化框架组件对方法的效果和效率的影响。我们发现，（1）包括文档词权重对方法的效果最重要，（2）包括查询权重具有轻微的正面影响，（3）文档扩展和查询扩展具有抵消效果。因此，我们展示了如何从最先进的模型中去除查询扩展可以显著减少延迟，同时在MSMarco和TripClick基准测试中保持效果。我们的代码可在https://github.com/thongnt99/learned-sparse-retrieval上公开获取。

作者：Thong Nguyen, Sean MacAvaney, Andrew Yates

论文ID：2303.13416

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-03-28

PDF 下载： 英文版中文版pdf翻译中