ICSTM+TUM+UP方法应对第三届CHIME挑战:单通道LSTM语音增强与多通道相关性塑形去混响和LSTM语言模型

摘要:第三届CHiME语音分离和识别挑战中,我们的贡献是使用双向长短时记忆循环神经网络(BLSTM RNN)进行单通道语音增强(SSE)。网络被训练成能够从噪声语音特征中预测出清晰的语音以及噪声特征。此外,系统在挑战的6通道录音上应用了两种去混响的方法。第一种是基于相位误差的滤波(PEF),它使用了基于估计的语音源到达时间差和麦克风信号相位的时变相位误差滤波器。第二种是相关形状(CS),它通过减小混响语音中长期相关能量来降低混响。线性预测(LP)残差经过处理以抑制长期相关性。此外,系统还使用了LSTM语言模型(LM)对识别假设进行N-best重新评分。使用所提出的方法,在真实评估测试集上实现了24.38\%的词错误率(WER)改进。相对于挑战基准线,这是大约25\%的相对改进。

作者:Amr El-Desoky Mousa, Erik Marchi, Bj"orn Schuller

论文ID:1510.00268

分类:Sound

分类简称:cs.SD

提交时间:2015-10-02

PDF 下载: 英文版 中文版pdf翻译中