卷积神经网络对音乐音频信号的音色分析

摘要:从log-mel幅度谱图中高效地定制卷积神经网络(CNN)以学习音色表示是本研究的重点。我们首先回顾了设计CNN架构时的趋势。通过文献综述,我们讨论了使用CNN高效学习音色表示的关键要点。根据这个讨论,我们提出了一种设计策略,用于捕捉学习音色所需的相关时频上下文,从而可以利用领域知识设计架构。此外,我们的主要目标之一是设计高效的CNN架构,以减少这些模型过拟合的风险,因为CNN的参数数量被最小化。基于我们提出的设计原则的几种架构已成功应用于与音色相关的不同研究任务:歌声音素分类、乐器识别和音乐自动标记。

作者:Jordi Pons, Olga Slizovskaia, Rong Gong, Emilia G''omez and Xavier Serra

论文ID:1703.06697

分类:Sound

分类简称:cs.SD

提交时间:2017-06-05

PDF 下载: 英文版 中文版pdf翻译中