统计参数语音合成在多任务学习框架下使用生成对抗网络

摘要:基于生成对抗网络(GAN)的统计参数语音合成(SPSS)中,我们旨在改善合成语音的性能。尤其是,在多任务学习(MTL)框架下,我们提出了一种新颖的架构,将传统的声学损失函数和GAN的判别性损失相结合。均方误差(MSE)通常用于估计深度神经网络的参数,它只考虑原始音频与合成音频之间的数值差异。为了缓解这个问题,我们将GAN引入作为第二个任务,用于确定输入是否具有特定条件下的自然语音。在这个MTL框架中,MSE优化提高了GAN的稳定性,同时GAN生成的样本分布更接近自然语音。听测试表明,多任务架构可以生成比传统方法更符合人类感知的自然语音。

作者:Shan Yang, Lei Xie, Xiao Chen, Xiaoyan Lou, Xuan Zhu, Dongyan Huang, Haizhou Li

论文ID:1707.01670

分类:Sound

分类简称:cs.SD

提交时间:2017-07-12

PDF 下载: 英文版 中文版pdf翻译中