深度学习的统计力学:超越无限宽度限制

摘要:通过几十年的文献证明了统计力学在澄清深度学习基本方面方面的成功。然而,最终目标仍然难以实现:我们缺乏一个完整的理论框架,来预测从训练数据中获得的实用相关分数,例如训练和测试准确率。在无限宽度限制下,出现了巨大的简化,即隐藏层中的单元数$N\_ell$远远超过训练样本数$P$。然而,这种理想化明显偏离了深度学习实践的现实情况,其中训练集大于网络的宽度。在这里,我们展示了一种克服这些限制的方法。使用统计力学的工具集,可以解析地计算完全连接架构的分区函数,该分区函数编码了关于训练模型的信息。计算在“热力学极限”中进行,其中$N\_ell$和$P$都很大,它们的比率$alpha\_ell = P/N\_ell$在无限宽度的限制下趋于零,现在是有限且普遍的。这一进展使我们能够获得以下结果:(i) 一个闭合的公式来计算具有有限$alpha\_ell$的单隐藏层网络中与回归任务相关的泛化误差;(ii) 一个关于完全连接架构的分区函数(技术上通过“有效作用”)的表达方式,该表达方式可以用有限个自由度(技术上称为“序参数”)表示;(iii) 证明了在无限宽度的限制下出现的高斯过程应该被学生-t过程替代;(iv) 一个简单的分析准则,用于预测给定的训练集是否有限宽度的网络(使用ReLU激活函数)比无限宽度的网络具有更好的测试准确率。

作者:S. Ariosto, R. Pacelli, M. Pastore, F. Ginelli, M. Gherardi, P. Rotondo

论文ID:2209.04882

分类:Disordered Systems and Neural Networks

分类简称:cond-mat.dis-nn

提交时间:2023-02-14

PDF 下载: 英文版 中文版pdf翻译中