优化引导遍历以实现快速学习稀疏检索
摘要:使用DeepImpact学习到的稀疏表示衍生出的BM25驱动动态索引跳过,可以极大地加速基于MaxScore的文档检索。本文研究了在使用SPLADE和uniCOIL等其他模型进行top k检索时,这种遍历引导策略的有效性,并发现当BM25模型与学习的权重模型不匹配或检索深度k较小时,无约束的BM25驱动跳过可能会导致明显的相关性降低。本文概括了之前的工作,并通过两级修剪控制方案和模型对齐来优化BM25引导索引遍历,从而快速检索使用稀疏表示。尽管可能会增加延迟的成本,但所提出的方案比原始的MaxScore方法无BM25引导要快得多,同时保持了相关性的有效性。本文分析了这种两级修剪方案的竞争力,并评估了在搜索几个测试数据集时在排名相关性和时间效率方面的权衡。
作者:Yifan Qiao, Yingrui Yang, Haixin Lin, Tao Yang
论文ID:2305.01203
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-03