手工制作、参数化和可学习特征在语音分离中的比较
摘要:三类声学特征设计对于语音分离很重要:手工制作、参数化和可学习特征。其中,可学习特征,其与分离网络联合进行端到端的训练,已成为现代语音分离研究的新趋势,例如卷积时域音频分离网络(Conv-Tasnet),而手工制作和参数化特征在最近的研究中也表现出竞争力。然而,尚未对这三种声学特征进行系统的比较。本文在Conv-Tasnet框架下,通过设置其编码器和解码器的不同声学特征来进行比较。我们还将手工制作的多相位伽玛音滤波器组(MPGTF)推广为新的参数化多相位伽玛音滤波器组(ParaMPGTF)。在WSJ0-2mix语料库上的实验结果表明:(i)如果解码器是可学习的,则将编码器设置为STFT、MPGTF、ParaMPGTF和可学习特征可以获得类似的性能;(ii)当将STFT、MPGTF和ParaMPGTF的伪逆变换用作解码器时,所提出的ParaMPGTF比其他两种手工制作特征表现更好。
作者:Wenbo Zhu, Mou Wang, Xiao-Lei Zhang, Susanto Rahardja
论文ID:2011.14295
分类:Sound
分类简称:cs.SD
提交时间:2021-01-15