通过互逆最近邻方法增强密集检索方法的排名背景。

摘要:稀疏标注给训练密集检索模型带来持续挑战,比如虚警的问题,即未标记的相关文档在对比学习中错误地被用作负样本,扭曲了训练信号。为了缓解这个问题,我们引入了基于证据的标签平滑方法,这是一种计算有效的方法,可以防止惩罚模型将高相关性分配给虚警样本。为了计算给定查询的排名上下文中候选文档的目标相关性分布,我们基于候选文档与基准文档的相似程度,为最相似的候选文档分配非零相关性概率,并作为相关性估计值。我们利用改进的相似度度量来计算这一相关性估计值,该度量基于互补最近邻。此外,该度量还可用于独立的候选文档的后处理重新排序。通过在两个大规模自由文本检索数据集上进行大量实验,我们证明了这两种方法都能提高密集检索模型的排名效果。

作者:George Zerveas, Navid Rekabsaz, Carsten Eickhoff

论文ID:2305.15720

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-05-26

PDF 下载: 英文版 中文版pdf翻译中