基于最佳情况检索评估:通过词典精确度提高互倒排序的灵敏度
摘要:通过各种排名任务,研究人员使用互倒排名来衡量对只对一个相关项目感兴趣的用户的效果。尽管被广泛使用,但有证据表明互倒排名在区分系统时是脆弱的。这种脆弱性在现代评估设置中被放大,其中当前的高精度系统可能很难区分。我们通过引入和将其与最佳情况检索的概念联系起来,解决了互倒排名缺乏敏感性的问题。最佳情况检索是一种评估方法,专注于评估在可能的召回要求下,对最满意用户的排名质量。这种观点允许我们推广互倒排名并定义一种新的基于偏好的评估方法,称为词典精确度或词典精度。通过数学构造,我们确保词典精确度保留互倒排名检测到的差异,同时在广泛的检索和推荐任务中在实证上提高了敏感性和稳健性。
作者:Fernando Diaz
论文ID:2306.07908
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-06-14