自适应字典方法用于背景噪声和说话者分类及随后的源分离-arXiv论文预印本中文版

自适应字典方法用于背景噪声和说话者分类及随后的源分离

摘要：识别从噪声对话中的噪声和说话者的方法包括字典学习方法、块稀疏和源恢复算法的层次化组合。使用两个说话者的语音进行模拟对话，每个说话者都有不同的背景噪声，SNR值变化为-10dB。模拟实验中使用了从TIMIT数据库中随机选择的十个男性和十个女性说话者以及NOISEX数据库中的所有噪声源。对于说话者识别，使用恢复得到的权重相对值来选择适当小的测试数据子集，假设其中包含语音。这种新颖的测试数据量选择方法使得在0dB的SNR下，说话者识别率提高了约15%。使用估计的说话者和噪声的字典分离语音和噪声，在0dB的SNR下，信号失真比可以提高达到10%。基于K-medoid和余弦相似度的字典学习方法可以更好地识别背景噪声和说话者。还对一些情况进行了实验，其中背景噪声或说话者在训练的字典集之外。在这种情况下，自适应字典学习可以实现与完整字典情况相当的性能。

作者：K V Vijay Girish, A G Ramakrishnan and T V Ananthapadmanabha

论文ID：1609.09764

分类：Sound

分类简称：cs.SD

提交时间：2016-10-31

PDF 下载： 英文版中文版pdf翻译中