二阶自动微分的学习率自适应缩放

摘要:通过使用一种新的自动微分技术,我们在深度神经网络的优化中提出了重新调整学习率的方法。这种技术依赖于计算曲率,这是一个二阶信息,其计算复杂度介于梯度计算和黑塞矩阵向量乘积之间。如果(1C,1M)分别表示梯度法的计算时间和内存占用,那么这种新技术将整体成本增加到(1.5C,2M)或(2C,1M)。这种重新调整具有自然的解释特性,它允许实践者在参数集的探索和算法的收敛之间进行选择。重新调整是自适应的,它取决于数据和下降方向。数值实验突出了不同的探索/收敛情况。

作者:Fr''ed''eric de Gournay (IMT, INSA Toulouse), Alban Gossard (IMT, UT3)

论文ID:2210.14520

分类:Neural and Evolutionary Computing

分类简称:cs.NE

提交时间:2022-10-27

PDF 下载: 英文版 中文版pdf翻译中