盲源分离中基于频率调制线索的非负张量分解

摘要:使用颤音非负张量因式分解方法来进行单声道无监督音频源分离,该方法用于将乐曲录音中的乐器或唱歌声源与非平稳音高分离开来。我们的方法扩展了音频建模的非负矩阵分解方法,通过在分离中包括频率调制的本地估计作为线索。这使得我们能够对颤音或滑音音乐源进行建模和无监督分离,而基本的矩阵因式分解方法无法实现这一点。 算法通过将音频频谱图和本地频率斜率对频率比率组成的稀疏非负张量进行因式分解,这些本地频率斜率对频率比率在每个时频桶中使用分布式微分法进行估计。使用本地频率调制作为分离线索是由听觉场景分析中的共同命运部分分组原理推导的,该原理假设混合音中的每个潜在源在感知上由其成分部分共享的相干频率和幅度调制来表征。我们通过最小化最大化法导出乘法因子更新方法,通过迭代保证收敛到局部最优解。然后我们将我们的方法与基线方法在两个分离任务上进行比较:一个任务涉及合成颤音音符,另一个任务涉及颤音弦乐器录音。

作者:Elliot Creager and Noah D. Stein and Roland Badeau and Philippe Depalle

论文ID:1606.00037

分类:Sound

分类简称:cs.SD

提交时间:2016-06-02

PDF 下载: 英文版 中文版pdf翻译中