基于直达路径特征和空间稀疏正则化的多说话者定位-arXiv论文预印本中文版

基于直达路径特征和空间稀疏正则化的多说话者定位

摘要：多说话者在嘈杂和混响环境中的定位问题的研究使用双耳录音的声场，本文解决了多说者定位在嘈杂和混响环境中的问题。采用高斯混合模型（GMM），其分量对应于在网格上定义的所有可能的候选源位置。在优化基于GMM的目标函数的同时，通过选择具有最大先验概率的GMM分量来估计被观察到的一组双耳特征的源数量和位置。通过实施稀疏解决方案来实现这一目标，从而将少数发言者优先考虑在具有大量初始候选源位置的情况下。在似然函数中加入了基于熵的惩罚项，从而在GMM先验集上施加了稀疏性。此外，直接传递相对传递函数（DP-RTF）用于构建稳健的双耳特征。DP-RTF最近被用于单源定位，并且被证明对混响具有鲁棒性，因为它编码了声音传播的直接路径的两个通道之间的信息。在本文中，我们将DP-RTF估计扩展到多个源的情况。在短时傅里叶变换域中，提出了一种一致性测试来检查一组连续帧是否与同一个源相关联。可靠的DP-RTF特征被从通过一致性测试的帧中选择出来，用于源定位。使用模拟数据和机器人头采集的真实数据进行的实验证实了所提出的多源定位方法的有效性。

作者：Xiaofei Li, Laurent Girin, Sharon Gannot and Radu Horaud

论文ID：1611.01172

分类：Sound

分类简称：cs.SD

提交时间：2017-10-06

PDF 下载： 英文版中文版pdf翻译中