为跨语言稠密检索赋能的查询生成器增强双编码器
摘要:跨语言稠密检索中关于如何从交叉编码器再排名器提炼知识到双编码器检索器上的很多研究,这些方法由于交叉编码器再排名器的有效性取得了更好的性能。然而,我们发现交叉编码器再排名器的性能严重受到训练样本数量和负样本质量的影响,在跨语言情况下很难获得。在本文中,我们提出在跨语言情况下使用查询生成器作为教师,使其不再依赖足够的训练样本和高质量的负样本。除了传统的知识蒸馏外,我们还提出了一种新的增强方法,利用查询生成器帮助双编码器对齐不同语言的查询,但不需要额外的平行句子。实验结果表明,我们的方法在两个基准数据集上超过了最先进的方法。
作者:Houxing Ren, Linjun Shou, Ning Wu, Ming Gong, Daxin Jiang
论文ID:2303.14991
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-03-28