破牢者:跨多个大型语言模型的自动越狱聊天机器人

摘要:大型语言模型(LLM)由于其在理解和生成类似人类文本方面的卓越能力,彻底改变了人工智能(AI)服务。尤其是LLM聊天机器人已经广泛应用,改变了人机交互。然而,这些LLM聊天机器人容易受到“越狱”攻击的影响,恶意用户可以操纵提示以引发不恰当或敏感的回应,违反服务政策。尽管已经尝试缓解此类威胁,但我们的研究发现我们对这些漏洞的理解存在重大差距,主要是由于LLM服务提供商未公开的防御措施。 在本文中,我们提出了Jailbreaker,一个全面的框架,可以深入了解越狱攻击和对策。我们的工作有双重贡献。首先,我们提出了一种创新的方法论,受到基于时间的SQL注入技术的启发,以反向工程几个主要LLM聊天机器人的防御策略,如ChatGPT、Bard和Bing Chat。这种时间敏感的方法揭示了有关这些服务的防御的复杂细节,便于进行成功绕过它们机制的概念验证攻击。其次,我们引入了一种用于生成越狱提示的自动化方法。利用经过精调的LLM,我们验证了在各种商业LLM聊天机器人中自动生成越狱的潜力。我们的方法取得了令人期待的平均成功率为21.58%,明显优于现有技术的有效性。我们已负责任地向有关服务提供商披露了我们的发现,强调了更强大防御的紧迫性。Jailbreaker因此在LLM聊天机器人领域理解和缓解越狱威胁方面迈出了重要一步。

作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu

论文ID:2307.08715

分类:Cryptography and Security

分类简称:cs.CR

提交时间:2023-07-19

PDF 下载: 英文版 中文版pdf翻译中