大型预训练模型中基本稀疏性的出现：重要的权重-arXiv论文预印本中文版

大型预训练模型中基本稀疏性的出现：重要的权重

摘要：理解在当今深度学习中那些暴增的预训练transformer模型中存在的简洁模式是至关重要的。由于重复的训练-修剪-重训练的迭代幅度修剪过程的高计算和内存瓶颈，Lottery Ticket Hypothesis (LTH)及其变体在稀疏化这些模型方面已经失去了其实用性。本文全面研究了多个大规模预训练的视觉和语言transformer中的诱导稀疏模式。我们提出存在一种“本质稀疏”的定义，即在一次性直接删除具有最小幅度的权重的情况下，当稀疏程度上升时，性能下降得更快。我们还发现，“本质稀疏”也适用于N:M稀疏模式以及现代规模的大型语言模型（Vicuna-7B）。我们还提出了一个有趣的新现象，在BERT的预训练过程中出现突然的稀疏化，即在某些迭代之后，BERT在预训练中变得非常稀疏。此外，我们的观察结果还表明了一个反直觉的发现，即使用更多的预训练数据训练的BERT倾向于以相对较少的参数来压缩知识。最后，我们研究了预训练损失对“本质稀疏”的影响，并发现自监督学习（SSL）目标触发的紧急稀疏化属性要比监督学习（SL）强。我们的代码可在url{https://github.com/VITA-Group/essential\_sparsity}上找到。

作者：Ajay Jaiswal, Shiwei Liu, Tianlong Chen, Zhangyang Wang

论文ID：2306.03805

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-11

PDF 下载： 英文版中文版pdf翻译中