G-Mix：一种通用的混合学习框架以实现平坦最小值-arXiv论文预印本中文版

G-Mix：一种通用的混合学习框架以实现平坦最小值

摘要：深度神经网络在各种复杂任务中表现出有希望的结果。然而，当前的深度神经网络在参数过多的情况下遇到了挑战，尤其是当训练数据有限时。为了增强深度神经网络的泛化能力，混合技术变得越来越受欢迎。然而，这种技术仍然产生了次优的结果。受成功的锐度感知优化（SAM）方法的启发，SAM方法建立了训练损失景观的锐度与模型泛化之间的联系，我们提出了一种新的学习框架，称为广义混合（Generalized-Mixup），该框架将混合技术和SAM方法的优势相结合用于训练深度神经网络模型。提供的理论分析证明了G-Mix框架如何增强泛化。另外，为了进一步优化使用G-Mix框架的深度神经网络模型性能，我们引入了两种新算法：二进制G-Mix和分解G-Mix。这些算法根据每个示例对锐度敏感性将训练数据划分为两个子集，以解决Mixup中“流形入侵”问题。理论解释和实验结果都显示，所提出的BG-Mix和DG-Mix算法进一步增强了在多个数据集和模型上的模型泛化能力，达到了最先进的性能。标题：广义混合: 一种增强深度神经网络泛化能力的新学习框架

作者：Xingyu Li and Bo Tang

论文ID：2308.03236

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-22

PDF 下载： 英文版中文版pdf翻译中