增强跨语言密集检索的段落表示与查询生成
摘要:使用跨语言查询生成来增强通过在原始段落语言之外的其他语言生成查询,而不是使用更多的跨语言数据进行训练。这些增强表示在推理时使用,以便表示可以在不同目标语言之间编码更多信息。跨语言查询生成器的训练不需要额外的训练数据,也很有效,因为生成器的预训练任务(T5文本到文本训练)与微调任务(生成查询)非常相似。使用生成器不会增加推理时的查询延迟,并且可以与任何跨语言密集检索方法结合使用。在基准跨语言信息检索数据集上的实验结果表明我们的方法可以提高现有跨语言密集检索方法的有效性。我们的方法的实现以及所有生成的查询文件公开在https://github.com/ielab/xQG4xDR上。
作者:Shengyao Zhuang, Linjun Shou and Guido Zuccon
论文ID:2305.03950
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-09