中文翻译:中间训练的语言模型在神经搜索中的基准测试

摘要:中间训练方法的目标是弥合掩码语言模型(MLM)预训练和最终微调检索之间的差距。最近的模型,如CoCondenser、RetroMAE和LexMAE,认为MLM任务不足以为检索预训练一个Transformer网络,因此提出了各种任务来解决这个问题。受到这些新方法的启发,我们注意到所有这些模型都使用了不同的微调协议,这使得很难评估中间训练的好处。本文在相同的微调条件下对CoCondenser、RetroMAE和LexMAE进行了基准测试。我们比较了稠密方法和稀疏方法在不同的微调协议和中间训练集合(MS MARCO、维基百科或Tripclick)上的表现。我们还使用了其他中间训练的基线方法,如在检索集合上进行标准的MLM微调,可选地增加一个预测通过词频的CLS。对于稀疏方法,我们的研究发现这些方法之间几乎没有统计学差异:微调过程越有效,这些模型之间的差异就越小。对于稠密方法,RetroMAE在几乎所有设置下使用MS MARCO作为中间训练集合展现出了出色的结果。最后,我们表明在检索集合上进行中间训练,从而使语言模型适应它,是一个关键因素。总体而言,应采用更好的实验设置来评估中间训练方法。代码可在https://github.com/naver/splade/tree/benchmarch-SIGIR23找到。

作者:Herv''e D''ejean, St''ephane Clinchant, Carlos Lassance, Simon Lupart, Thibault Formal

论文ID:2306.02867

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-06-06

PDF 下载: 英文版 中文版pdf翻译中