大型预训练模型中基本稀疏性的出现:重要的权重

摘要:理解在当今深度学习中那些暴增的预训练transformer模型中存在的简洁模式是至关重要的。由于重复的训练-修剪-重训练的迭代幅度修剪过程的高计算和内存瓶颈,Lottery Ticket Hypothesis (LTH)及其变体在稀疏化这些模型方面已经失去了其实用性。本文全面研究了多个大规模预训练的视觉和语言transformer中的诱导稀疏模式。我们提出存在一种“本质稀疏”的定义,即在一次性直接删除具有最小幅度的权重的情况下,当稀疏程度上升时,性能下降得更快。我们还发现,“本质稀疏”也适用于N:M稀疏模式以及现代规模的大型语言模型(Vicuna-7B)。我们还提出了一个有趣的新现象,在BERT的预训练过程中出现突然的稀疏化,即在某些迭代之后,BERT在预训练中变得非常稀疏。此外,我们的观察结果还表明了一个反直觉的发现,即使用更多的预训练数据训练的BERT倾向于以相对较少的参数来压缩知识。最后,我们研究了预训练损失对“本质稀疏”的影响,并发现自监督学习(SSL)目标触发的紧急稀疏化属性要比监督学习(SL)强。我们的代码可在url{https://github.com/VITA-Group/essential\_sparsity}上找到。

作者:Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Zhangyang Wang

论文ID:2306.03805

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-11

PDF 下载: 英文版 中文版pdf翻译中