可解释人工智能归因方法的精确基准评估
摘要:一种新的可解释人工智能评估方法用于基准测试最先进的可解释人工智能归因方法。该方法包括一个合成的分类模型以及其派生的真实解释,用于高精度地表示输入节点的贡献。我们还提出了新的高保真度度量标准,以量化所研究的可解释人工智能方法与合成模型派生解释之间的差异。我们的度量标准允许分别评估解释的精确度和召回率。此外,我们提出了度量标准来独立评估输入的负面或正面贡献。我们的提案能够更深入地了解可解释人工智能方法的输出。我们通过构建一个合成的卷积图像分类模型,并使用我们的评估方法来对几种广泛使用的可解释人工智能归因方法进行基准测试。我们将结果与已建立的可解释人工智能评估度量进行比较。通过从我们的方法中直接派生出真实解释,我们确保不存在偏见,例如基于训练集的主观性。我们的实验结果为广泛使用的Guided-Backprop和Smoothgrad可解释人工智能方法的性能提供了新的见解。两种方法在正向贡献像素方面都具有良好的精确度和召回率分数(分别为0.7、0.76和0.7、0.77),但在负向贡献像素方面的精确度得分较低(分别为0.44、0.61和0.47、0.75)。召回率得分在后一种情况下保持接近。我们表明我们的度量标准在执行时间方面是最快的之一。
作者:Rafa"el Brandt, Daan Raatjens, Georgi Gaydadjiev
论文ID:2308.03161
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-08-08