SSE:评估搜索系统可解释性的度量

摘要:可解释的信息检索(XIR)是一个不断发展的研究领域,其重点是增强现代信息检索系统中复杂决策过程的透明度和可信度。尽管在开发XIR系统方面已经取得进展,但目前缺乏评估此类系统可解释性程度的实证评估工具。为了弥补这一差距并了解XIR系统的真正价值,我们扩展了对搜索可解释性的因素分析的现有见解,引入了SSE(搜索系统可解释性)作为XIR搜索系统的评估指标。通过众包用户研究,我们证明了SSE能够区分可解释和不可解释的系统,显示较高得分的系统确实表明更高的可解释性。此外,我们观察到非母语和母语英语用户之间在感知时间需求和性能水平方面具有可比性。除了对XIR的这些具体贡献之外,我们希望这个工作线路能够为机器学习和自然语言处理的其他领域类似的可解释性评估工作提供一个蓝图。

作者:Catherine Chen and Carsten Eickhoff

论文ID:2306.10175

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-06-21

PDF 下载: 英文版 中文版pdf翻译中