基于深度神经网络的语音增强的多目标学习和基于掩模的后处理
摘要:一种多目标框架用于学习与语音增强(SE)的目标任务不直接相关的次要目标以及用于构建增强语音信号的干净对数功率谱(LPS)特征的主要目标。在基于深度神经网络(DNN)的SE中,我们引入了一个辅助结构来学习次要连续特征,比如梅尔频率倒谱系数(MFCCs),以及分类信息,比如理想二进制掩模(IBM),并将其整合到原始的DNN架构中,以便联合优化所有参数。这种联合估计方案施加了在直接预测LPS中不可用的额外约束,可能改善了主要目标的学习。此外,作为副产品的学习到的次要信息可以用于其他目的,例如本文中的基于IBM的后处理。一系列实验证明联合学习LPS和MFCC可以改善SE的性能,并且基于IBM的后处理进一步提高了重建语音的听觉质量。
作者:Yong Xu, Jun Du, Zhen Huang, Li-Rong Dai, Chin-Hui Lee
论文ID:1703.07172
分类:Sound
分类简称:cs.SD
提交时间:2017-03-22