双耳流形上的声音源分离与定位的声学空间学习
摘要:建模全频谱声源产生的声学空间的问题,并利用学习到的模型进行多源定位和分离的问题。我们为了引入双耳流形范例,奠定了理论和方法学的基础。我们对高维双耳频谱数据的潜在低维结构进行了深入研究,基于一个类似人类听觉动作机器人头部记录的语料库。使用非线性降维技术,展示了这些数据位于由听众的动作状态或者等效地说,声源方向参数化的二维(2D)光滑流形上。我们提出了一种特别设计用于处理具有内在分段线性结构的高维数据的概率分段仿射映射模型(PPAM)。我们推导了闭式期望最大化(EM)过程来估计模型参数,然后利用贝叶斯反演得到声源方向的全后验密度函数。我们将这个解决方案扩展到处理实际世界频谱图中的缺失数据和冗余,从而实现自然声源(如语音)的二维定位。我们进一步将模型推广到多个声源的具有挑战性的情况,并提出了一种变分EM框架。相关算法被称为变分EM用于源分离和定位(VESSL),可以对所有声源的二维位置和时频掩码进行贝叶斯估计。与几种现有方法的比较表明,声学空间学习与贝叶斯推断的结合使我们的方法能够胜过最先进的方法。
作者:Antoine Deleforge and Florence Forbes and Radu Horaud
论文ID:1402.2683
分类:Sound
分类简称:cs.SD
提交时间:2015-02-06