G-Mix:一种通用的混合学习框架以实现平坦最小值

摘要:深度神经网络在各种复杂任务中表现出有希望的结果。然而,当前的深度神经网络在参数过多的情况下遇到了挑战,尤其是当训练数据有限时。为了增强深度神经网络的泛化能力,混合技术变得越来越受欢迎。然而,这种技术仍然产生了次优的结果。受成功的锐度感知优化(SAM)方法的启发,SAM方法建立了训练损失景观的锐度与模型泛化之间的联系,我们提出了一种新的学习框架,称为广义混合(Generalized-Mixup),该框架将混合技术和SAM方法的优势相结合用于训练深度神经网络模型。提供的理论分析证明了G-Mix框架如何增强泛化。另外,为了进一步优化使用G-Mix框架的深度神经网络模型性能,我们引入了两种新算法:二进制G-Mix和分解G-Mix。这些算法根据每个示例对锐度敏感性将训练数据划分为两个子集,以解决Mixup中“流形入侵”问题。理论解释和实验结果都显示,所提出的BG-Mix和DG-Mix算法进一步增强了在多个数据集和模型上的模型泛化能力,达到了最先进的性能。 标题: 广义混合: 一种增强深度神经网络泛化能力的新学习框架

作者:Xingyu Li and Bo Tang

论文ID:2308.03236

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-22

PDF 下载: 英文版 中文版pdf翻译中