Adam和AdamW优化器训练的深度神经网络泛化性能中损失函数的Lipschitz性效果
摘要:Adam或AdamW优化算法对于深度神经网络的泛化性能是机器学习中的一个重要关注点。该性能受到多种因素的影响。本文在理论上证明了损失函数的Lipschitz常数是降低Adam或AdamW获得的输出模型的泛化误差的重要因素。这些结果可以作为选择损失函数时的指导,当优化算法为Adam或AdamW时。此外,为了在实际环境中评估理论上界,我们选择了计算机视觉中的人脸年龄估计问题。为了更好地评估泛化性能,训练和测试数据集从不同的分布中抽取。我们的实验证明,具有较低Lipschitz常数和最大值的损失函数可以提高Adam或AdamW训练的模型的泛化性能。
作者:Mohammad Lashkari and Amin Gheibi
论文ID:2303.16464
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-23