一次性标注用于自动相关性估计
摘要:用于离线实验时评估搜索系统的未评估文档("holes")是一个长期存在的问题。holes可能会降低评估中检索系统的表现效果,并在训练具有不完整数据的模型中引入偏差。在这项工作中,我们探讨了大型语言模型是否能帮助我们填补这些holes,以改善离线评估。我们研究了一个极端但常见的评估设置,其中每个查询只有一个已知相关文档可用于评估。然后,我们探索了几种方法来预测与查询和已知相关文档相关的未评估文档的相关性,包括最近邻、有监督和提示技术。我们发现,尽管这些One-Shot Labelers(1SL)预测往往与人工评估不一致,但它们产生的标签比单个标签更可靠地提供了系统排名。具体而言,最强的方法可以在各种度量下持续达到与完整排名的系统排名相关性超过0.86。同时,由于填补了相关性评估中的holes,该方法显著提高了t-检验的可靠性,使研究人员对发现的显著结果更有信心。与此工作同时,我们发布了一个易于使用的软件包,以便在其他临时收藏或系统的评估中使用1SL。
作者:Sean MacAvaney, Luca Soldaini
论文ID:2302.11266
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-07-12