随时间变化的稳健性：理解对大型语言模型的纵向版本的对抗样本有效性-arXiv论文预印本中文版

随时间变化的稳健性：理解对大型语言模型的纵向版本的对抗样本有效性

摘要：大型语言模型(Large Language Models，LLMs)在各个领域的许多任务中取得了显著的改进，例如代码解释、响应生成和消除歧义。然而，这些LLMs在升级时主要注重提升用户体验，而忽视了安全、隐私和安全性的影响。因此，可能会引入意外的漏洞或偏见。先前的研究主要集中在模型的特定版本上，忽视了针对更新版本的新攻击向量的潜在出现。通过在语境学习框架下考虑对抗性示例，本纵向研究通过对连续版本的LLMs进行全面评估，与GPT-3.5进行比较，解决了这一问题。我们进行了大量实验，分析和理解两个不同学习类别的鲁棒性的影响：零样本学习和少样本学习。我们的研究结果表明，与先前版本的LLMs相比，更新版本在面对对抗性攻击时并没有表现出预期的鲁棒性水平。此外，我们的研究强调了在大多数零样本学习和少样本学习情况下，协同对抗查询的增加有效性。我们希望我们的研究能够对LLMs的鲁棒性随时间变化进行更精细的评估，并为开发人员和用户提供有价值的模型见解。

作者：Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang

论文ID：2308.07847

分类：Cryptography and Security

分类简称：cs.CR

提交时间：2023-08-16

PDF 下载： 英文版中文版pdf翻译中