自毁模型:增加基础模型有害双重使用的成本
摘要:基于开源基础模型的快速发展生态系统减少了应用机器学习于许多新问题所需的标记数据和技术专业知识。然而,基础模型存在明显的双重用途风险,不加区分地降低了构建有害和有益机器学习系统的成本。限制模型访问和出口管制等政策工具是目前用于减轻此类双重用途风险的主要方法。在这项工作中,我们回顾了潜在的安全发布策略,并认为决策者和人工智能研究人员都将从能够更精确地控制开源基础模型后续使用的基础新技术中受益。我们提出了一种这样的方法:任务阻断范式,在该范式中,基础模型经过额外机制训练,以阻碍其适应有害任务,同时不损害其在理想任务上的性能。我们将由此产生的模型称为自毁模型,灵感来自于阻止敌对方将工具用于有害目的的机制。我们提出了一种利用元学习和对抗学习技术训练自毁模型的算法,称为元学习对抗性审查(MLAC)。在一个小规模实验中,我们展示了MLAC可以在很大程度上防止一个BERT风格模型被重新用于进行性别识别,同时不损害模型进行职业分类的能力。
作者:Peter Henderson, Eric Mitchell, Christopher D. Manning, Dan Jurafsky, Chelsea Finn
论文ID:2211.14946
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-10