黑盒环境下类梯度解释:当黑盒解释变得与白盒一样出色
摘要:基于梯度的解释方法在揭示深度学习模型等数据驱动方法的可解释性方面提供了启示,通过揭示对决策做出最大贡献的特征。推导特征归因的一种被广泛接受的方式是分析目标函数相对于输入特征的梯度。梯度分析需要对目标系统拥有完全访问权限,这意味着这类解决方案将目标系统视为白盒。然而,白盒假设可能由于安全和安全性问题而无法接受,从而限制了它们的实际应用。作为对有限灵活性的回应,本文提出了一种名为GEEX(基于梯度估计的解释)的解释方法,在黑盒设置下提供了类似梯度的解释。此外,我们将所提出的方法与路径方法相结合。结果得到的方法iGEEX(集成GEEX)满足特征归因方法的四个基本公理:敏感性、不变性、实施不变性和线性性质。通过针对图像数据的详尽实验证明所提出的方法在黑盒法方面优于最先进方法,并且在与具有完全访问权限的方法相比具有竞争性能。
作者:Yi Cai, Gerhard Wunder
论文ID:2308.09381
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-21