在恶劣的现实环境中,用于语音识别的稳健的基于一致性的频谱增强
摘要:在恶劣的实际环境中进行语音识别受到混响和非平稳背景噪声的极大影响。在多麦克风情景中,减少这些不期望的信号成分的一种著名策略是对麦克风信号进行空间滤波。本文中,我们展示了一种额外的基于相干性的后滤波方法,该方法应用于波束形成器的输出信号,用于从后者中去除扩散干扰成分,进一步提高现代深度学习语音识别系统的识别准确性。为此,我们在最近更新的第三期CHiME语音分离与识别挑战(CHiME-3)基线语音识别系统上拓展了一个基于相干性的后滤波器,并探究了后滤波器对由CHiME-3提供的嘈杂环境的词错误率的影响。为了确定时频依赖的后滤波器增益,我们使用了基于方位的和独立于方位的相干性与扩散功率比的估计器,作为短时信噪比的近似值。我们的实验表明,将基于相干性的后滤波应用于CHiME-3基线语音识别系统中,可以显著降低在CHiME-3提供的嘈杂和混响环境中的词错误率得分。
作者:Hendrik Barfuss, Christian Huemmer, Andreas Schwarz, Walter Kellermann
论文ID:1604.03393
分类:Sound
分类简称:cs.SD
提交时间:2017-08-08