统计参数语音合成在多任务学习框架下使用生成对抗网络-arXiv论文预印本中文版

统计参数语音合成在多任务学习框架下使用生成对抗网络

摘要：基于生成对抗网络（GAN）的统计参数语音合成（SPSS）中，我们旨在改善合成语音的性能。尤其是，在多任务学习（MTL）框架下，我们提出了一种新颖的架构，将传统的声学损失函数和GAN的判别性损失相结合。均方误差（MSE）通常用于估计深度神经网络的参数，它只考虑原始音频与合成音频之间的数值差异。为了缓解这个问题，我们将GAN引入作为第二个任务，用于确定输入是否具有特定条件下的自然语音。在这个MTL框架中，MSE优化提高了GAN的稳定性，同时GAN生成的样本分布更接近自然语音。听测试表明，多任务架构可以生成比传统方法更符合人类感知的自然语音。

作者：Shan Yang, Lei Xie, Xiao Chen, Xiaoyan Lou, Xuan Zhu, Dongyan Huang, Haizhou Li

论文ID：1707.01670

分类：Sound

分类简称：cs.SD

提交时间：2017-07-12

PDF 下载： 英文版中文版pdf翻译中