词典瓶颈预训练用于大规模检索

摘要:通过学习词汇空间中的加权稀疏表示,大规模检索中的词典加权范式在质量高且延迟低的情况下表现出很大的潜力。尽管它充分利用了预训练语言模型的词典表示能力,但语言建模和词典加权检索之间仍存在重要差距。前者更倾向于某些确定的或低熵的词汇,而后者更倾向于枢轴或高熵的词汇,这成为大规模检索中词典加权性能的主要障碍。为了弥合这一差距,我们提出了一个全新的预训练框架,词典瓶颈遮蔽自编码器(LexMAE),来学习重要度感知的词典表示。基本上,我们在正常的语言建模编码器和削弱的解码器之间建立了一个词典瓶颈模块,其中构建了一个连续的词袋瓶颈,以无监督的方式学习词典重要性分布。经过预训练的LexMAE可以通过微调轻松地转移到词典加权检索中。在ad-hoc检索基准MS-Marco上,它以45.8 QPS的速度在段落数据集上实现了42.6\% MRR@10,在文档数据集上实现了134.8 QPS的44.4\% MRR@100,使用CPU设备。并且LexMAE在BEIR基准上展示了最先进的零样本转移能力,涵盖了12个数据集。

作者:Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang

论文ID:2208.14754

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-06-06

PDF 下载: 英文版 中文版pdf翻译中