中文翻译：中间训练的语言模型在神经搜索中的基准测试-arXiv论文预印本中文版

中文翻译：中间训练的语言模型在神经搜索中的基准测试

摘要：中间训练方法的目标是弥合掩码语言模型（MLM）预训练和最终微调检索之间的差距。最近的模型，如CoCondenser、RetroMAE和LexMAE，认为MLM任务不足以为检索预训练一个Transformer网络，因此提出了各种任务来解决这个问题。受到这些新方法的启发，我们注意到所有这些模型都使用了不同的微调协议，这使得很难评估中间训练的好处。本文在相同的微调条件下对CoCondenser、RetroMAE和LexMAE进行了基准测试。我们比较了稠密方法和稀疏方法在不同的微调协议和中间训练集合（MS MARCO、维基百科或Tripclick）上的表现。我们还使用了其他中间训练的基线方法，如在检索集合上进行标准的MLM微调，可选地增加一个预测通过词频的CLS。对于稀疏方法，我们的研究发现这些方法之间几乎没有统计学差异：微调过程越有效，这些模型之间的差异就越小。对于稠密方法，RetroMAE在几乎所有设置下使用MS MARCO作为中间训练集合展现出了出色的结果。最后，我们表明在检索集合上进行中间训练，从而使语言模型适应它，是一个关键因素。总体而言，应采用更好的实验设置来评估中间训练方法。代码可在https://github.com/naver/splade/tree/benchmarch-SIGIR23找到。

作者：Herv''e D''ejean, St''ephane Clinchant, Carlos Lassance, Simon Lupart, Thibault Formal

论文ID：2306.02867

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-06-06

PDF 下载： 英文版中文版pdf翻译中