SLIM:稀疏化后期交互用于多向量检索的倒排索引
摘要:基于稀疏化后交互(SLIM)以倒排索引进行多向量检索。多向量检索方法在各种检索数据集上证明了其有效性,其中ColBERT是基于预训练语言模型的上下文化令牌嵌入的后期交互最为成熟的方法。然而,高效的ColBERT实现需要复杂的工程和无法利用现成的搜索库,阻碍了其实际应用。为了解决这个问题,SLIM首先将每个上下文化令牌向量映射到稀疏的高维词法空间,然后在这些稀疏令牌嵌入之间进行后期交互。接下来,我们引入了一个高效的两阶段检索架构,包括倒排索引检索和得分细化模块,以近似表示稀疏化后的交互,完全兼容像Lucene这样的现成词法搜索库。在MS MARCO Passages和BEIR上, SLIM在与ColBERT相比的准确性上取得了竞争性的成绩,同时在CPU上更小更快。据我们所知,我们是第一个探索使用稀疏令牌表示进行多向量检索的研究者。源代码和数据已集成到Pyserini IR工具包中。
作者:Minghan Li, Sheng-Chieh Lin, Xueguang Ma, Jimmy Lin
论文ID:2302.06587
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-10