虚假攻击:在对顺序决策者进行对抗性攻击中,可检测性至关重要。
摘要:对抗攻击可能对部署在现实世界中的自主代理产生影响,因此需要使其具有鲁棒性。而要提高代理策略的鲁棒性,则需要预测可能的最强攻击。我们证明了现有的基于观察空间的针对强化学习代理的攻击具有共同的弱点:虽然有效,但它们缺乏时间上的一致性,因此可以通过自动化手段或人工检查来发现。对手不希望攻击被发现,因为这可能引发安全升级。我们引入了完美的错觉攻击,这是一种全新的对序列决策者的对抗性攻击方式,既有效又能够被统计证明难以检测出来。然后,我们提出了更具灵活性的R-攻击,通过这种攻击方式产生的观察转换与无对手的环境的状态转换函数一致,并且可以进行端到端学习。与现有的攻击相比,我们在实证研究中发现,R-攻击在自动化方法中更难被发现,并且在人类主体的小规模研究中也表现出类似的难以检测性。我们提议,在对自主与混合自主设置的对抗攻击研究中,不可检测性应该成为一个核心关注点。
作者:Tim Franzmeyer, Stephen McAleer, Jo~ao F. Henriques, Jakob N. Foerster, Philip H.S. Torr, Adel Bibi, Christian Schroeder de Witt
论文ID:2207.10170
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-06-21