破牢者：跨多个大型语言模型的自动越狱聊天机器人-arXiv论文预印本中文版

破牢者：跨多个大型语言模型的自动越狱聊天机器人

摘要：大型语言模型（LLM）由于其在理解和生成类似人类文本方面的卓越能力，彻底改变了人工智能（AI）服务。尤其是LLM聊天机器人已经广泛应用，改变了人机交互。然而，这些LLM聊天机器人容易受到“越狱”攻击的影响，恶意用户可以操纵提示以引发不恰当或敏感的回应，违反服务政策。尽管已经尝试缓解此类威胁，但我们的研究发现我们对这些漏洞的理解存在重大差距，主要是由于LLM服务提供商未公开的防御措施。在本文中，我们提出了Jailbreaker，一个全面的框架，可以深入了解越狱攻击和对策。我们的工作有双重贡献。首先，我们提出了一种创新的方法论，受到基于时间的SQL注入技术的启发，以反向工程几个主要LLM聊天机器人的防御策略，如ChatGPT、Bard和Bing Chat。这种时间敏感的方法揭示了有关这些服务的防御的复杂细节，便于进行成功绕过它们机制的概念验证攻击。其次，我们引入了一种用于生成越狱提示的自动化方法。利用经过精调的LLM，我们验证了在各种商业LLM聊天机器人中自动生成越狱的潜力。我们的方法取得了令人期待的平均成功率为21.58％，明显优于现有技术的有效性。我们已负责任地向有关服务提供商披露了我们的发现，强调了更强大防御的紧迫性。Jailbreaker因此在LLM聊天机器人领域理解和缓解越狱威胁方面迈出了重要一步。

作者：Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu

论文ID：2307.08715

分类：Cryptography and Security

分类简称：cs.CR

提交时间：2023-07-19

PDF 下载： 英文版中文版pdf翻译中