用基于音素级混合密度网络的丰富韵律多样性建模
摘要:利用多样且流畅的语调模式生成自然语音是一项具有挑战性的任务。虽然已经研究了使用基于音素级语调分布的随机抽样来生成不同的语调模式,但生成的语音的多样性仍然非常有限,并远远达不到人类的水平。这主要是由于在音素级语调建模的先前工作中使用了单一高斯分布等单一模态分布。在本文中,我们提出了一种新颖的方法,使用基于GMM的混合密度网络(GMM-MDN)对音素级语调进行建模。在LJSpeech数据集上的实验证明,音素级语调可以精确控制合成语音,并且GMM-MDN可以生成比单一高斯分布更自然、更流畅的语调模式。主观评估进一步表明,所提出的方法不仅在自然度方面取得了更好的效果,而且在合成语音的语调多样性上也有显著改善,而无需手动控制。
作者:Chenpeng Du and Kai Yu
论文ID:2102.00851
分类:Sound
分类简称:cs.SD
提交时间:2021-05-25