SpecMix：一种用于训练时频域特征的混合样本数据增强方法-arXiv论文预印本中文版

SpecMix：一种用于训练时频域特征的混合样本数据增强方法

摘要：混合样本数据增强策略的提出旨在提高音频场景分类、声音事件分类和语音增强任务中模型的性能。虽然已经有一些增强方法被证明可以有效改善图像分类性能，但它们对于音频的时频域特征的功效并不确定。我们提出了一种新颖的音频数据增强方法，命名为“Specmix”，专门用于处理时频域特征。增强方法包括通过应用有效保留音频样本的频谱相关性的时频掩模来混合两个不同的数据样本。我们在声学场景分类、声音事件分类和语音增强任务上的实验证明，所提出的Specmix可以将各种神经网络架构的性能最大提升2.7\%。

作者：Gwantae Kim, David K. Han, Hanseok Ko

论文ID：2108.03020

分类：Sound

分类简称：cs.SD

提交时间：2021-08-09

PDF 下载： 英文版中文版pdf翻译中