为交叉编码器重排器生成合成文档:ChatGPT与人类专家的比较研究
摘要:使用生成式大型语言模型(LLMs)为交叉编码器重新排序器生成训练数据的实用性。我们以一种新的方式探讨这个问题:生成合成文档而不是合成查询。我们引入了一个新的数据集,ChatGPT-RetrievalQA,并比较在LLM生成的数据和人工生成的数据上进行微调的模型的有效性。使用生成式LLMs生成的数据可以用来增加训练数据,特别是在标注数据较少的领域中。我们根据现有的数据集ChatGPT Comparison Corpus (HC3)构建了ChatGPT-RetrievalQA,其中包含公共问题集合及ChatGPT的人工回答。我们在MS MARCO DEV、TREC DL'19和TREC DL'20上对人工生成和ChatGPT生成的数据进行了一系列交叉编码器重新排序器的微调。我们的评估结果表明,在零训练情况下,基于ChatGPT回答训练的交叉编码器重新排序模型比基于人工回答训练的模型显著更有效。在监督设置下,人工训练的重新排序器优于LLM训练的重新排序器。我们的新发现表明,生成式LLMs在为神经检索模型生成训练数据方面具有很高的潜力。需要进一步研究来确定生成的回答中事实错误信息的影响,并使用开源LLMs测试我们的发现的普适性。我们发布了我们的数据、代码和交叉编码器检查点供未来的研究使用。
作者:Arian Askari, Mohammad Aliannejadi, Evangelos Kanoulas, Suzan Verberne
论文ID:2305.02320
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-04