统计权重:利用统计假设检验改进交错方法结果的估计器
摘要:利用交错方法进行在线评估是信息检索系统比较排序函数解读用户隐式反馈效果的一种方法。之前的研究,如Hofmann等人(2011年)评估了当时最有前景的交错方法,并采用均匀查询分布进行评估。在实际情况中,通常存在一个不平衡的重复查询分布,该分布遵循长尾用户搜索需求曲线。一个查询被不同用户(或在不同会话中)执行的次数越多,收集到与相关搜索结果相关的隐式反馈(交互/点击)的概率就越高。本文首先旨在复制团队循环交错方法在均匀查询分布上的准确性评估,然后集中评估该方法如何推广到长尾现实场景中。可重复性的工作对于每个查询的获胜排序函数如何影响整个评估的总胜者提出了有趣的考虑。根据观察到的情况,我们提出并推荐不是所有查询都应以相等比例对最终决策做出贡献。基于这些见解,我们设计了两种变体的Delta_AB分数获胜者估计器,根据统计假设检验为每个查询分配信用。为了复制、重现和扩展原始工作,我们从头开始开发了一个模拟搜索引擎和行业数据集用户交互的系统。我们的实验证实了我们的直觉,并显示出我们的方法在准确性、敏感性和对噪声的稳健性方面具有潜力。
作者:Alessandro Benedetti, Anna Ruggero
论文ID:2303.10094
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-03-20