超越特征归因的可解释性:使用概念激活向量(TCAV)进行定量测试

摘要:深度学习模型的解释是一项挑战,因为它们的规模、复杂性和不透明的内部状态。此外,许多系统(如图像分类器)处理的是低级特征而不是高级概念。为了解决这些挑战,我们引入概念激活向量(CAVs),它们以人类友好的概念来解释神经网络的内部状态。关键思想是将神经网络的高维内部状态视为一种辅助工具而不是障碍。我们展示了如何使用CAVs作为一种技术(称为Testing with CAVs,TCAV),利用方向导数来量化用户定义的概念对分类结果的重要程度,例如预测"斑马"与条纹之间的关联程度。以图像分类领域为测试基础,我们描述了如何使用CAVs来探索假设并为标准图像分类网络以及医疗应用生成洞见。

作者:Been Kim, Martin Wattenberg, Justin Gilmer, Carrie Cai, James Wexler, Fernanda Viegas, Rory Sayres

论文ID:1711.11279

分类:Machine Learning

分类简称:stat.ML

提交时间:2019-04-05

PDF 下载: 英文版 中文版pdf翻译中