利用语言模型进行上下文学习的后门攻击-arXiv论文预印本中文版

利用语言模型进行上下文学习的后门攻击

摘要：大规模语言模型显著增加了开发后门攻击的难度，因为成功的后门攻击必须适用于不同的推导策略，并且不影响模型的通用能力。我们设计了一种新的攻击方法，通过操纵语言模型执行特定目标任务来引发有针对性的错误分类，并通过对1.3亿到60亿参数的多个大型语言模型进行后门植入，证明了该攻击的可行性。最后，我们研究了一些防御方法，以减轻我们的攻击潜在危害：例如，当模型进行微调，并追加500个步骤，就足以消除后门行为，但在黑盒设置下，我们无法仅依靠提示工程开发出成功的防御策略。

作者：Nikhil Kandpal, Matthew Jagielski, Florian Tram`er, Nicholas Carlini

论文ID：2307.14692

分类：Cryptography and Security

分类简称：cs.CR

提交时间：2023-07-28

PDF 下载： 英文版中文版pdf翻译中