重新排名-扩展-重复:使用词和实体的自适应查询扩展进行文档检索
摘要:稀疏和密集的伪相关反馈(PRF)方法在复杂查询上表现不佳,因为首次检索的精度低。然而,最近神经语言模型(NLM)的进展可以重新排列相关文档到前面的排名,即使只有很少的文档被重新排序。本文首先解决了伪相关反馈的问题,简单地在查询扩展之前应用重新排名,并重新执行该查询。我们发现,仅仅通过这种改变就可以将稀疏和密集的PRF方法的检索效果提高5-8\%。进一步地,我们提出了一种新的扩展模型,即潜在实体扩展(LEE),它是基于精细化的单词和实体的相关建模,融入了局部特征。最后,我们在检索过程中加入了一个"自适应"组件,通过使用扩展模型在评分过程中迭代地优化重新排序池,即"重新排名-扩展-重复"。使用LEE,我们在TREC Robust 2004和CODEC文档数据集上达到了(据我们所知)最好的NDCG、MAP和R@1000结果,展示了扩展效果的显著进步。
作者:Iain Mackie, Shubham Chatterjee, Sean MacAvaney, Jeffrey Dalton
论文ID:2306.17082
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-06-30