SpaDE:利用双重文档编码器改进稀疏表示以进行第一阶段检索

摘要:稀疏文档表示已被广泛应用于通过精确的词汇匹配来检索相关文档。由于预先计算的倒排索引,它支持快速的自适应搜索,但会导致词汇不匹配的问题。虽然最近使用预训练的语言模型的神经排名模型可以解决这个问题,但通常需要昂贵的查询推理成本,意味着在效果和效率之间存在权衡。为解决这个问题,我们提出了一种新颖的单编码器排名模型——使用双文档编码器进行稀疏检索的SpaDE,通过双编码器学习文档表示。每个编码器在(i)调整术语的重要性以提高词汇匹配和(ii)扩展附加术语以支持语义匹配方面发挥核心作用。此外,我们的共同训练策略有效地训练了双编码器,并避免了彼此训练中的不必要干预。在几个基准测试中的实验结果表明,SpaDE优于现有的单编码器排名模型。

作者:Eunseong Choi, Sunkyung Lee, Minjin Choi, Hyeseon Ko, Young-In Song and Jongwuk Lee

论文ID:2209.05917

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-04-14

PDF 下载: 英文版 中文版pdf翻译中