随时间变化的稳健性:理解对大型语言模型的纵向版本的对抗样本有效性
摘要:大型语言模型(Large Language Models,LLMs)在各个领域的许多任务中取得了显著的改进,例如代码解释、响应生成和消除歧义。然而,这些LLMs在升级时主要注重提升用户体验,而忽视了安全、隐私和安全性的影响。因此,可能会引入意外的漏洞或偏见。先前的研究主要集中在模型的特定版本上,忽视了针对更新版本的新攻击向量的潜在出现。通过在语境学习框架下考虑对抗性示例,本纵向研究通过对连续版本的LLMs进行全面评估,与GPT-3.5进行比较,解决了这一问题。我们进行了大量实验,分析和理解两个不同学习类别的鲁棒性的影响:零样本学习和少样本学习。我们的研究结果表明,与先前版本的LLMs相比,更新版本在面对对抗性攻击时并没有表现出预期的鲁棒性水平。此外,我们的研究强调了在大多数零样本学习和少样本学习情况下,协同对抗查询的增加有效性。我们希望我们的研究能够对LLMs的鲁棒性随时间变化进行更精细的评估,并为开发人员和用户提供有价值的模型见解。
作者:Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang
论文ID:2308.07847
分类:Cryptography and Security
分类简称:cs.CR
提交时间:2023-08-16