SpaDE：利用双重文档编码器改进稀疏表示以进行第一阶段检索-arXiv论文预印本中文版

SpaDE：利用双重文档编码器改进稀疏表示以进行第一阶段检索

摘要：稀疏文档表示已被广泛应用于通过精确的词汇匹配来检索相关文档。由于预先计算的倒排索引，它支持快速的自适应搜索，但会导致词汇不匹配的问题。虽然最近使用预训练的语言模型的神经排名模型可以解决这个问题，但通常需要昂贵的查询推理成本，意味着在效果和效率之间存在权衡。为解决这个问题，我们提出了一种新颖的单编码器排名模型——使用双文档编码器进行稀疏检索的SpaDE，通过双编码器学习文档表示。每个编码器在（i）调整术语的重要性以提高词汇匹配和（ii）扩展附加术语以支持语义匹配方面发挥核心作用。此外，我们的共同训练策略有效地训练了双编码器，并避免了彼此训练中的不必要干预。在几个基准测试中的实验结果表明，SpaDE优于现有的单编码器排名模型。

作者：Eunseong Choi, Sunkyung Lee, Minjin Choi, Hyeseon Ko, Young-In Song and Jongwuk Lee

论文ID：2209.05917

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-04-14

PDF 下载： 英文版中文版pdf翻译中