高质量声音转换利用韵律和高分辨率频谱特征

摘要:深度神经网络用于声音转换方法在过去十年中得到了快速发展。研究表明,说话人的特征包括频谱特征和各种韵律特征。大多数现有的转换方法都集中在频谱特征上,因为它直接代表了音色特征,而一些转换方法只关注由基频表示的韵律特征。本文提出了一个使用深度神经网络来转换音色和韵律特征的综合框架。音色特征由高分辨率的频谱特征表示。韵律特征包括基频、强度和持续时间。众所周知,DNN对于建模高维特征非常有用。在这项工作中,我们展示了通过我们提出的自动编码器预训练初始化的DNN产生了优质的DNN转换模型。这种预训练是专门为语音转换量身定制的,利用自动编码器来捕捉源语音的通用频谱形状。此外,我们的框架使用分段DNN模型来捕捉韵律特征随时间的演变。为了重建转换后的语音,DNN模型产生的频谱特征与DNN分段模型产生的三个韵律特征相结合。我们的实验结果表明,应用韵律和高分辨率频谱特征可以得到质量较高的转换后语音,这是通过客观评估和主观听测试来衡量的。

作者:Hy Quy Nguyen and Siu Wa Lee and Xiaohai Tian and Minghui Dong and Eng Siong Chng

论文ID:1512.01809

分类:Sound

分类简称:cs.SD

提交时间:2015-12-08

PDF 下载: 英文版 中文版pdf翻译中