合成跨语言信息检索训练数据
摘要:用于神经跨语言信息检索(CLIR)系统的一个关键障碍是缺乏训练数据。MS MARCO单语训练集的出现使得神经单语检索的最新技术取得了显著进展。通过使用机器翻译将MS MARCO文档翻译成其他语言,这个资源已经对CLIR社区具有了实用价值。然而,这种翻译存在一些问题。虽然MS MARCO是一个大资源,但它是固定大小的;它的流派和话语领域也是固定的;而翻译文档并不是用本语言的母语者写的,而是使用了翻译术语。为了解决这些问题,我们引入了JH-POLO CLIR训练集创建方法。该方法首先选择一对非英语段落,然后使用生成式大语言模型生成一个与第一个段落相关并且第二个段落不相关的英文查询。通过重复这个过程,可以创建任意大小的集合,其样式与MS MARCO类似,但使用任意期望领域和话语领域的自然发生的文档。本文详细描述了该方法,展示了它在创建新的CLIR训练集方面的应用,并描述了使用新创建的训练数据进行的实验。
作者:James Mayfield and Eugene Yang and Dawn Lawrie and Samuel Barham and Orion Weller and Marc Mason and Suraj Nair and Scott Miller
论文ID:2305.00331
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-02