通过互逆最近邻方法增强密集检索方法的排名背景。-arXiv论文预印本中文版

通过互逆最近邻方法增强密集检索方法的排名背景。

摘要：稀疏标注给训练密集检索模型带来持续挑战，比如虚警的问题，即未标记的相关文档在对比学习中错误地被用作负样本，扭曲了训练信号。为了缓解这个问题，我们引入了基于证据的标签平滑方法，这是一种计算有效的方法，可以防止惩罚模型将高相关性分配给虚警样本。为了计算给定查询的排名上下文中候选文档的目标相关性分布，我们基于候选文档与基准文档的相似程度，为最相似的候选文档分配非零相关性概率，并作为相关性估计值。我们利用改进的相似度度量来计算这一相关性估计值，该度量基于互补最近邻。此外，该度量还可用于独立的候选文档的后处理重新排序。通过在两个大规模自由文本检索数据集上进行大量实验，我们证明了这两种方法都能提高密集检索模型的排名效果。

作者：George Zerveas, Navid Rekabsaz, Carsten Eickhoff

论文ID：2305.15720

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-05-26

PDF 下载： 英文版中文版pdf翻译中