FLIRT:反馈循环下的上下文红队

摘要:自动化红队评估生成模型的安全漏洞:基于不安全和不适当内容生成的红队框架

作者:Ninareh Mehrabi, Palash Goyal, Christophe Dupuy, Qian Hu, Shalini Ghosh, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta

论文ID:2308.04265

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-08-09

PDF 下载: 英文版 中文版pdf翻译中