半监督的语音增强在包络和细节子空间中-arXiv论文预印本中文版

半监督的语音增强在包络和细节子空间中

摘要：通过离散余弦变换，我们得到了语音信号幅度谱，其中包含了语音的主要信息。因此，理想情况下，我们可以通过仅处理幅度谱来实现语音增强。然而，在真实的环境中，噪声会对幅度谱进行损坏，进而削弱了语音的可懂度。为了更好地处理这种问题，本研究提出了一种基于调制解耦的单通道语音增强子空间框架。该框架通过将噪声语音的谱图解耦为光谱包络子空间和光谱细节子空间的乘积来实现。通过这种解耦方法，我们可以有针对性地消除那些严重影响可懂度的噪声。在光谱包络子空间中，我们发展了两种监督低秩和稀疏分解方案，以实现语音成分的稳健恢复。我们使用非负矩阵分解的贝叶斯公式从干净语音样本的光谱包络子空间中学习语音词典。在光谱细节子空间中，我们实施了标准的鲁棒主成分分析以提取语音成分。验证结果表明，与MMSE-SPP、NMF-RPCA、RPCA和LARC等四种语音增强算法相比，提出的基于调制解耦的算法在提高感知质量和特别是语音可懂度方面均达到了令人满意的性能。

作者：Pengfei Sun and Jun Qin

论文ID：1609.09443

分类：Sound

分类简称：cs.SD

提交时间：2017-02-24

PDF 下载： 英文版中文版pdf翻译中