学习稀疏检索的统一框架
摘要:学习稀疏检索(LSR)是一类用于生成查询和文档的稀疏词汇表示的第一阶段检索方法,用于倒排索引。近年来,引入了许多LSR方法,其中Splade模型在MSMarco上实现了最先进的性能。尽管这些LSR方法在模型结构上有相似之处,但在效果和效率上仍存在相当大的差异。由于实验设置和配置的差异,很难对这些方法进行比较和洞察。在这项工作中,我们分析了现有的LSR方法,并确定了建立统一所有LSR方法的LSR框架的关键组成部分。然后,我们使用一个共同的代码库重新实现了所有著名的方法,并在同一环境中对它们进行重新训练,这样可以量化框架组件对方法的效果和效率的影响。我们发现,(1)包括文档词权重对方法的效果最重要,(2)包括查询权重具有轻微的正面影响,(3)文档扩展和查询扩展具有抵消效果。因此,我们展示了如何从最先进的模型中去除查询扩展可以显著减少延迟,同时在MSMarco和TripClick基准测试中保持效果。我们的代码可在https://github.com/thongnt99/learned-sparse-retrieval上公开获取。
作者:Thong Nguyen, Sean MacAvaney, Andrew Yates
论文ID:2303.13416
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-03-28