渐进优化视角下的随机梯度下降

摘要:随机梯度下降(SGD)方法在机器学习中应用广泛,用于解决非凸优化问题。本文从毕业优化的角度研究了SGD方法,该方法是解决非凸优化问题的一种常用方法。毕业优化方法不是直接解决实际优化问题,而是解决一系列可以通过不同方式实现的平滑优化问题。本文基于非负近似等式给出了毕业优化的形式化表述,这将高斯平滑的思想推广了出来。同时,本文利用变分分析技术获得了渐近收敛结果。然后,我们展示了传统的SGD方法可以用于解决平滑优化问题。蒙特卡罗积分被用来获得平滑问题中的梯度,这可能与实际应用中的分布式计算方案一致。从实际优化问题的假设出发,可以直接推导出SGD在平滑问题上的收敛结果。数值实验表明,在某些情况下,毕业优化方法可能提供更准确的训练结果。

作者:Da Li, Jingjing Wu, Qingrun Zhang

论文ID:2308.06775

分类:Optimization and Control

分类简称:math.OC

提交时间:2023-08-15

PDF 下载: 英文版 中文版pdf翻译中