关于超高斯语音先验在基于机器学习的语音增强中的重要性
摘要:机器学习的单声道语音增强方案利用先验知识来增强噪声信号。为了确保良好的泛化性能,并满足计算复杂性和内存消耗的要求,某些方法限制自己只学习语音频谱包络。我们把这些方法称为基于机器学习的频谱包络 (MLSE) 方法。 本文通过理论和实验分析,我们证明了对于基于 MLSE 的方法,超高斯先验可以减小语音谐波之间的噪声,这是使用高斯估计器如维纳滤波器无法实现的。在评估中,我们使用了基于深度神经网络 (DNN) 的音素分类器和基于低秩非负矩阵分解 (NMF) 框架作为 MLSE 的例子。听觉实验和工具性度量表明,虽然超高斯先验仅对经典增强方案有适度的改进,但对于基于 MLSE 的方法,超高斯先验明显有重要的差别,并且显著优于高斯先验。
作者:Robert Rehr and Timo Gerkmann
论文ID:1703.05003
分类:Sound
分类简称:cs.SD
提交时间:2018-01-17