延迟随机梯度下降的泛化性理解-arXiv论文预印本中文版

延迟随机梯度下降的泛化性理解

摘要：SGD的异步形式在训练大规模机器学习模型中扮演重要角色。然而，鲜少有研究探索异步延迟SGD的泛化性能，这是评估机器学习算法的关键指标。现有的泛化误差界限过于保守，无法揭示异步延迟和泛化之间的相关性。本文研究了带有异步延迟$au$的SGD的更强泛化误差界限。借助生成函数分析工具，我们首先建立了延迟梯度算法的平均稳定性。基于算法稳定性，我们提供了二次凸且强凸问题的泛化误差上界，分别为$ ilde{mathcal{O}}(frac{T- au}{n au})$和$ ilde{mathcal{O}}(frac{1}{n})$，其中$T$是迭代次数，$n$是训练数据的数量。我们的理论结果表明，异步延迟可以减小延迟SGD算法的泛化误差。类似的分析可以推广到随机延迟设置，并且实验结果验证了我们的理论发现。

作者：Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li, and Dacheng Tao

论文ID：2308.09430

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-21

PDF 下载： 英文版中文版pdf翻译中