大规模推断:针对大型搜索和推荐实验的显著性测试
摘要:使用统计技术来比较系统时,已经进行了大量的信息检索研究。然而,这些研究是针对TREC-style实验的,这种实验通常只涉及少于100个主题。对于大型搜索和推荐实验而言,没有类似的研究线路;这类研究通常涉及成千上万个主题或用户,并且相关性评判较为稀疏。因此,尚不清楚分析传统的TREC实验的建议是否适用于这些设置。在本文中,我们以经验的方式研究了大规模搜索和推荐评估数据中的显著性检验行为。我们的结果表明,相较于bootstrap、随机化和t-tests,Wilcoxon和Sign tests在大样本情况下显示出显著较高的一类错误率,这与预期的错误率不一致。虽然各统计检验在较小样本大小时显示出了不同的效力,但在大样本情况下效力无差异。我们建议不应使用sign和Wilcoxon检验分析大规模的评估结果。我们的结果表明,在Top-N推荐和大规模搜索评估数据中,大多数检验都有100%的机会发现统计显著结果。因此,应该使用效应大小来决定实际或科学的显著性。
作者:Ngozi Ihemelandu and Michael D. Ekstrand
论文ID:2305.02461
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-15