通过结合音素和时长信息进行音频至乐谱匹配-arXiv论文预印本中文版

通过结合音素和时长信息进行音频至乐谱匹配

摘要：用语音和持续时间信息来解决歌唱乐句音频与乐谱的匹配问题 - 着重研究京剧无伴奏唱法案例。我们认为，由于每种调性在京剧音乐中都存在基本的旋律轮廓，仅使用旋律信息（如音高轮廓）将导致模糊的匹配。因此，我们提出了一种基于语音和持续时间信息的匹配方法。通过使用我们的数据来构建一个受数据影响的声学模型来提取语音信息，并且使用我们研究的隐马尔可夫模型（HMM）变种来考虑持续时间信息。我们为我们的乐谱中的每个歌词路径构建一个模型，并通过对解码的最可能状态序列的后验概率进行排名来实现匹配。我们研究了三个声学模型：（i）卷积神经网络（CNN），（ii）深度神经网络（DNN）和（iii）高斯混合模型（GMM）。此外，我们还比较了两种持续时间模型：（i）隐藏半马尔可夫模型（HSMM）和（ii）后处理持续时间模型。结果表明，在我们的（小型）音频数据集中，CNN在表现上更好，而HSMM优于后处理持续时间模型。

作者：Rong Gong, Jordi Pons, Xavier Serra

论文ID：1707.03547

分类：Sound

分类简称：cs.SD

提交时间：2017-07-13

PDF 下载： 英文版中文版pdf翻译中