基于听觉启发特征的语音信号中混响时间和直达混响比例的联合估计
摘要:从多次反射的语音信号中盲估计音频房间的参数,例如混响时间$T_{60}$和直达声与混响声的比率(DRR)仍然是具有挑战性的任务。在本工作中,提出了一种新的方法,用于在噪声环境中从宽频语音中联合估计$T_{60}$和DRR。利用排列在滤波器组中的2D Gabor滤波器来提取特征,然后将这些特征作为输入传递给多层感知器(MLP)。MLP的输出神经元对应于特定的$(T_{60}, DRR)$估计对;输出随时间积分,并且通过一个简单的决策规则得到我们的估计。该方法应用于由环境声学特性(Acoustic Characterization of Environments, ACE)挑战提供的单通道全频语音信号。我们的方法优于基准系统,对于$T_{60}$和DRR估计的中位数误差接近零和-1.5 dB,同时相比于基准系统,估计的计算速度提高了5.8倍。
作者:Feifei Xiong, Stefan Goetze, Bernd T. Meyer
论文ID:1510.04620
分类:Sound
分类简称:cs.SD
提交时间:2015-10-16