手工制作、参数化和可学习特征在语音分离中的比较-arXiv论文预印本中文版

手工制作、参数化和可学习特征在语音分离中的比较

摘要：三类声学特征设计对于语音分离很重要：手工制作、参数化和可学习特征。其中，可学习特征，其与分离网络联合进行端到端的训练，已成为现代语音分离研究的新趋势，例如卷积时域音频分离网络(Conv-Tasnet)，而手工制作和参数化特征在最近的研究中也表现出竞争力。然而，尚未对这三种声学特征进行系统的比较。本文在Conv-Tasnet框架下，通过设置其编码器和解码器的不同声学特征来进行比较。我们还将手工制作的多相位伽玛音滤波器组(MPGTF)推广为新的参数化多相位伽玛音滤波器组(ParaMPGTF)。在WSJ0-2mix语料库上的实验结果表明：（i）如果解码器是可学习的，则将编码器设置为STFT、MPGTF、ParaMPGTF和可学习特征可以获得类似的性能；（ii）当将STFT、MPGTF和ParaMPGTF的伪逆变换用作解码器时，所提出的ParaMPGTF比其他两种手工制作特征表现更好。

作者：Wenbo Zhu, Mou Wang, Xiao-Lei Zhang, Susanto Rahardja

论文ID：2011.14295

分类：Sound

分类简称：cs.SD

提交时间：2021-01-15

PDF 下载： 英文版中文版pdf翻译中