关于超高斯语音先验在基于机器学习的语音增强中的重要性-arXiv论文预印本中文版

关于超高斯语音先验在基于机器学习的语音增强中的重要性

摘要：机器学习的单声道语音增强方案利用先验知识来增强噪声信号。为了确保良好的泛化性能，并满足计算复杂性和内存消耗的要求，某些方法限制自己只学习语音频谱包络。我们把这些方法称为基于机器学习的频谱包络 (MLSE) 方法。本文通过理论和实验分析，我们证明了对于基于 MLSE 的方法，超高斯先验可以减小语音谐波之间的噪声，这是使用高斯估计器如维纳滤波器无法实现的。在评估中，我们使用了基于深度神经网络 (DNN) 的音素分类器和基于低秩非负矩阵分解 (NMF) 框架作为 MLSE 的例子。听觉实验和工具性度量表明，虽然超高斯先验仅对经典增强方案有适度的改进，但对于基于 MLSE 的方法，超高斯先验明显有重要的差别，并且显著优于高斯先验。

作者：Robert Rehr and Timo Gerkmann

论文ID：1703.05003

分类：Sound

分类简称：cs.SD

提交时间：2018-01-17

PDF 下载： 英文版中文版pdf翻译中