理解文本检索的差异化搜索索引
摘要:不同iable搜索引擎(DSI)是一种新颖的信息检索(IR)框架,它利用可微函数来生成对给定查询的排序文档标识符列表。然而,由于端到端神经架构的黑盒性质,人们仍然不明白DSI在索引和检索方面具有何种能力。为了弥补这一差距,本研究定义并检查了IR框架应具备的三个重要能力,即排他性、完整性和相关性排序。我们的分析实验证明,虽然DSI在记忆伪查询到文档标识符的单向映射方面表现出了熟练的技巧,但在区分相关文档和随机文档方面则表现出不足,从而对其检索效果产生负面影响。为了解决这个问题,我们提出了一种多任务蒸馏方法,以提高检索质量,同时不改变模型的结构,并成功地赋予它改进的索引能力。通过对各种数据集进行实验,我们证明了我们提出的方法优于以前的DSI基线。
作者:Xiaoyang Chen, Yanjiang Liu, Ben He, Le Sun, Yingfei Sun
论文ID:2305.02073
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-24