可训练的权重平均化:一种子空间训练的通用方法

摘要:训练低维度子空间中的深度神经网络(DNNs)是实现高效训练和更好泛化性能的一种有前途的方向。我们之前的工作通过在训练轨迹上执行降维方法来提取子空间,从而验证了DNN可以在一个小的子空间中训练得很好。然而,该方法在子空间提取方面效率低下且数值不稳定,限制了其在更通用任务上的适用性。在本文中,我们将子空间训练与权重平均连接起来,并提出了一种称为Trainable Weight Averaging (TWA)的通用方法来进行子空间训练。TWA在子空间提取方面效率高且易于使用,因此成为DNN训练的一种有前景的新优化器。我们的设计还包括一种有效的方案,允许在多个节点之间进行并行训练,以处理大规模问题,并将内存和计算负担均匀分配到每个节点。TWA可以用于有效训练和泛化增强,适用于不同的神经网络架构,以及从图像分类和目标检测到神经语言处理等各种任务。实现代码可在https://github.com/nblt/TWA上找到,其中包括了对各种基准计算机视觉和神经语言处理任务以及各种架构进行全面实验的代码。

作者:Tao Li, Zhehao Huang, Yingwen Wu, Zhengbao He, Qinghua Tao, Xiaolin Huang, Chih-Jen Lin

论文ID:2205.13104

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-14

PDF 下载: 英文版 中文版pdf翻译中