潜在越狱:评估大型语言模型的文本安全性和输出鲁棒性的基准

摘要:大语言模型的安全性与鲁棒性评估:以潜在破解提示数据集为例

作者:Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan

论文ID:2307.08487

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中