深度神经网络有效地学习非平滑函数
摘要:深度神经网络在某些情况下为什么比其他模型表现更好的理论解释:从统计属性考察非光滑函数的深度神经网络。深度神经网络在实践中表现出比其他标准方法更高的性能,但理解其机制仍然是一个具有挑战性的问题。从统计理论的角度来看,在大样本渐近情况下,许多标准方法都达到了光滑函数泛化误差的最优速率,因此很难找到深度神经网络的理论优势。本文通过考虑学习一类非光滑函数来填补这一空白,导出了具有ReLU激活函数的深度神经网络的估计泛化误差,并证明了深度神经网络的泛化收敛速率几乎是最优的,可以用于估计非光滑函数,而一些流行的模型则不能达到最优速率。此外,我们的理论结果为选择适当的深度神经网络的层数和边提供了指导。我们进行了数值实验以支持理论结果。
作者:Masaaki Imaizumi, Kenji Fukumizu
论文ID:1802.04474
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-07-10