利用语言模型进行上下文学习的后门攻击
摘要:大规模语言模型显著增加了开发后门攻击的难度,因为成功的后门攻击必须适用于不同的推导策略,并且不影响模型的通用能力。我们设计了一种新的攻击方法,通过操纵语言模型执行特定目标任务来引发有针对性的错误分类,并通过对1.3亿到60亿参数的多个大型语言模型进行后门植入,证明了该攻击的可行性。最后,我们研究了一些防御方法,以减轻我们的攻击潜在危害:例如,当模型进行微调,并追加500个步骤,就足以消除后门行为,但在黑盒设置下,我们无法仅依靠提示工程开发出成功的防御策略。
作者:Nikhil Kandpal, Matthew Jagielski, Florian Tram`er, Nicholas Carlini
论文ID:2307.14692
分类:Cryptography and Security
分类简称:cs.CR
提交时间:2023-07-28