基于谐波加噪声模型和歌唱表达分析的普通话歌声合成
摘要:人类如何表演地诠释音乐乐谱,进而设计出能够像人类一样歌唱的机器。我们考虑了六个对人类唱歌表演有强烈影响的因素。这些因素与真实唱歌信号的声学、语音和音乐特征有关。在给定按照MIDI乐谱和歌词录制的真实唱歌声音的情况下,我们的分析模块能够半自动地从真实唱歌信号中提取表现参数。这些表现参数用于控制基于谐波加噪声模型(HNM)的汉语普通话歌声合成(SVS)系统。感知性实验的结果表明,将表现因素整合到SVS系统中能够显著提高感知自然度、清晰度和表达力。通过将真实唱歌信号和表现控制进行一对一的映射,我们的SVS系统能够模拟具有说话人音色的真实歌手的演绎。
作者:Ju-Chiang Wang, Hung-Yan Gu, Hsin-Min Wang
论文ID:1502.04300
分类:Sound
分类简称:cs.SD
提交时间:2015-02-17