有限和优化:适应平滑度和无循环方差缩减
摘要:AdaVR:AdaGrad与方差减少梯度估计器的结合对于有限和最优化问题,方差减少梯度方法(VR)在每次迭代中计算单个函数(或小批量)的梯度,并且由于一个精心制作的低方差随机梯度估计器可以重复使用过去的梯度而实现更快的收敛速度,优于SGD。过去十年中,另一项在连续优化领域的重要研究方向是自适应算法,例如AdaGrad,它根据过去的梯度动态调整(可能是逐坐标的)学习率,从而适应目标函数的几何性质。RMSprop和Adam等变种算法展现了出色的实际性能,为深度学习的成功做出了贡献。在这项工作中,我们提出了AdaVR,它将AdaGrad算法与方差减少梯度估计器(如SAGA或L-SVRG)相结合。我们评估了AdaVR从VR方法中继承的良好收敛性质和AdaGrad的自适应特性:对于$L$-光滑凸函数,我们在不知道$L$的情况下建立了一个渐近复杂度为$O(n+(L+sqrt{nL})/varepsilon)$的梯度复杂度。数值实验证明了AdaVR优于现有方法的优越性。此外,我们凭经验表明,RMSprop和Adam算法与方差减少梯度估计器相结合可以实现更快的收敛速度。
作者:Bastien Batardi`ere, Julien Chiquet, Joon Kwon
论文ID:2307.12615
分类:Optimization and Control
分类简称:math.OC
提交时间:2023-07-25