使用发音特征对转换后语音的质量评估
摘要:基于声音到发音逆向的新型应用程序,用于评估语音转换后的语音质量。人类能够毫不费力地说话,需要各种发音器官、肌肉等的协调运动。这种不费力的运动对于自然性、可懂度和说话人的身份有所贡献,这在语音转换后部分存在。因此,在语音转换过程中,与语音产生相关的信息会丢失。本文通过显示男声语音转换中RMSE误差的增加,然后显示互信息的减少,量化了这种损失。女声语音也取得了类似的结果。通过显示发音特征可以用作客观测量指标来扩展这一观察结果。通过比较所提出的测量方法与MCD的相关性,说明其有效性。
作者:Avni Rajpal, Nirmesh J. Shah, Mohammadi Zaki, Hemant A. Patil
论文ID:1511.04867
分类:Sound
分类简称:cs.SD
提交时间:2015-11-24