可解释人工智能中的操纵风险:异议问题的影响

摘要:可解释人工智能(XAI)的存在面临着一个重要挑战,即决策或预测的多个解释可能性。尽管人们已经承认存在这个问题,但与这个问题相关的潜在影响尚未广泛研究。首先,我们概述了解释提供者可以采用的不同策略,以使返回的解释符合他们的利益。我们区分了攻击机器学习模型或基础数据以影响解释的策略和直接利用解释阶段的策略。接下来,我们分析了提供者可能参与这种行为的几个目标和具体情景,以及这种操纵行为可能对社会造成的危险后果。我们强调,在这些方法广泛实施之前,现在就必须调查这个问题,并提出一些缓解策略。

作者:Sofie Goethals and David Martens and Theodoros Evgeniou

论文ID:2306.13885

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-28

PDF 下载: 英文版 中文版pdf翻译中