您的Qrels有多具有区分性?如何研究文档裁决方法的统计显著性

摘要:评估离线检索的测试集,需要人工判断文档的相关性。这种昂贵的活动促使许多工作开展方法,以降低评估成本构建基准。在这方面,仲裁方法积极决定专家审核文档的顺序,以更好地利用评估预算或降低评估预算。研究人员通过测量在完整集合下系统的已知黄金排序与在低成本集合下观察到的系统排序之间的相关性来评估这些方法的质量。这种传统分析忽略了低成本判断对于系统之间的统计显著差异是否以及如何影响完整集合。我们通过提出一种新的方法论来填补这一空白,以评估低成本仲裁方法在保留系统之间的成对显著差异方面的稳定性。换句话说,传统方法在回答“系统A是否优于系统B?”的问题时寻求稳定性,而我们提出的方法在回答“系统A是否显著优于系统B?”的问题时寻求稳定性,这是研究人员需要回答以保证结果可推广的最终问题。在其他结果中,我们发现在系统排序相关性方面最好的方法并不总是与保留统计显著性的方法相匹配。

作者:David Otero, Javier Parapar and Nicola Ferro

论文ID:2308.09340

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中