延迟随机梯度下降的泛化性理解
摘要:SGD的异步形式在训练大规模机器学习模型中扮演重要角色。然而,鲜少有研究探索异步延迟SGD的泛化性能,这是评估机器学习算法的关键指标。现有的泛化误差界限过于保守,无法揭示异步延迟和泛化之间的相关性。本文研究了带有异步延迟$au$的SGD的更强泛化误差界限。借助生成函数分析工具,我们首先建立了延迟梯度算法的平均稳定性。基于算法稳定性,我们提供了二次凸且强凸问题的泛化误差上界,分别为$ ilde{mathcal{O}}(frac{T- au}{n au})$和$ ilde{mathcal{O}}(frac{1}{n})$,其中$T$是迭代次数,$n$是训练数据的数量。我们的理论结果表明,异步延迟可以减小延迟SGD算法的泛化误差。类似的分析可以推广到随机延迟设置,并且实验结果验证了我们的理论发现。
作者:Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li, and Dacheng Tao
论文ID:2308.09430
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-21