ResNets的全局收敛性:从有限宽度到无限宽度的线性参数化

摘要:过度参数化是解释梯度下降法(GD)在神经网络中的全局收敛性的一个关键因素,这是因为缺乏凸性。除了对于惰性范围的研究外,还有一种使用凸优化技术对浅层网络进行无限宽度(均值场)分析的方法。为了弥合惰性和均值场之间的差距,我们研究了残差网络(ResNets),其中残差块具有线性参数化,同时仍然是非线性的。这种ResNets可以拥有无限深度和宽度,并将残差块编码在再生核希尔伯特空间(RKHS)中。在这个极限情况下,我们证明了一个局部的Polyak-Lojasiewicz不等式。因此,每个临界点都是一个全局最小点,并且GD的局部收敛结果适用于惰性范围。与其他均值场研究相比,它适用于参数化和非参数化情况,只要满足一定的残差表达条件。我们的分析导致了一个实用的且具有量化效果的方法:从一个通用的RKHS出发,应用随机傅里叶特征来获得一个具有有限维参数化的结果,并以高概率满足我们的表达条件。

作者:Rapha"el Barboni (ENS-PSL), Gabriel Peyr''e (ENS-PSL, CNRS), Franc{c}ois-Xavier Vialard (LIGM)

论文ID:2112.05531

分类:Neural and Evolutionary Computing

分类简称:cs.NE

提交时间:2023-02-07

PDF 下载: 英文版 中文版pdf翻译中