潜在越狱：评估大型语言模型的文本安全性和输出鲁棒性的基准-arXiv论文预印本中文版

潜在越狱：评估大型语言模型的文本安全性和输出鲁棒性的基准

摘要：大语言模型的安全性与鲁棒性评估：以潜在破解提示数据集为例

作者：Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan

论文ID：2307.08487

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中