渐近分析:统计和计算范式中的随机微分方程梯度下降算法
摘要:随机优化问题的梯度下降算法(特别是加速梯度下降和随机梯度下降算法)在统计学和机器学习中的渐近行为被研究。本文展示了这些算法可以通过连续时间的常微分方程或随机微分方程进行计算建模。我们建立了梯度流的中心极限定理来描述这些计算算法的极限动力学行为和相关统计过程的大样本性能。随着算法迭代次数和数据规模趋向于无穷大,这些梯度流的中心极限定理由一些线性的常微分方程或随机微分方程(如时间依赖的奥恩斯坦-乌伦贝克过程)所调控。我们展示了我们的研究可以为联合计算和统计渐近分析提供一个新的统一框架,其中计算渐近分析研究这些算法的动力学行为,统计渐近分析研究算法应用于计算的统计程序(如估计量和分类器)的大样本行为,实际上,这些统计程序就是从这些迭代算法生成的随机序列的极限,当迭代次数趋向于无穷大时。基于所得到的梯度流中心极限定理的联合分析结果可以确定四个因素 - 学习率、批量大小、梯度协方差和Hessian矩阵 - 来推导解随机梯度下降法解决非凸优化问题时找到的局部最小值的新理论。
作者:Yazhen Wang
论文ID:1711.09514
分类:Machine Learning
分类简称:stat.ML
提交时间:2019-11-13