FLIRT：反馈循环下的上下文红队-arXiv论文预印本中文版

FLIRT：反馈循环下的上下文红队

摘要：自动化红队评估生成模型的安全漏洞：基于不安全和不适当内容生成的红队框架

作者：Ninareh Mehrabi, Palash Goyal, Christophe Dupuy, Qian Hu, Shalini Ghosh, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta

论文ID：2308.04265

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-08-09

PDF 下载： 英文版中文版pdf翻译中