召回、鲁棒性和词典式评估

摘要:排名是评估检索、推荐和机器学习任务中的一个重要因素。尽管在集合评估中有一个流行的召回率解释,但研究界对排名的召回度量还远没有一个原则性的理解。对召回率缺乏原则性的理解或动机导致了检索界对召回度量是否有用的质疑。因此,我们从形式的角度对排名中的召回率进行了反思。我们的分析包括三个原则:召回率、稳健性和词典排序评估。首先,我们将“召回导向性”正式定义为对底部排名的相关项移动的敏感性。其次,我们从与可能的搜索者和内容提供者相关的稳健性的角度分析了召回导向性的概念。最后,我们通过开发基于词典排序比较的实际偏好评估方法,扩展了对召回率的概念性和理论性处理。通过对17个TREC轨道的广泛经验分析,我们确定我们的新评估方法lexirecall与现有的召回度量相关,并在存在缺失标签的情况下具有更高的区分能力和稳定性。我们的概念性、理论性和经验分析大大加深了我们对召回率的理解,并通过与稳健性和公正性的联系推动了其采用。

作者:Fernando Diaz, Bhaskar Mitra

论文ID:2302.11370

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-07-25

PDF 下载: 英文版 中文版pdf翻译中