FLIRT:反馈循环下的上下文红队
摘要:自动化红队评估生成模型的安全漏洞:基于不安全和不适当内容生成的红队框架
作者:Ninareh Mehrabi, Palash Goyal, Christophe Dupuy, Qian Hu, Shalini Ghosh, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta
论文ID:2308.04265
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-08-09