自适应字典方法用于背景噪声和说话者分类及随后的源分离
摘要:识别从噪声对话中的噪声和说话者的方法包括字典学习方法、块稀疏和源恢复算法的层次化组合。使用两个说话者的语音进行模拟对话,每个说话者都有不同的背景噪声,SNR值变化为-10dB。模拟实验中使用了从TIMIT数据库中随机选择的十个男性和十个女性说话者以及NOISEX数据库中的所有噪声源。对于说话者识别,使用恢复得到的权重相对值来选择适当小的测试数据子集,假设其中包含语音。这种新颖的测试数据量选择方法使得在0dB的SNR下,说话者识别率提高了约15%。使用估计的说话者和噪声的字典分离语音和噪声,在0dB的SNR下,信号失真比可以提高达到10%。基于K-medoid和余弦相似度的字典学习方法可以更好地识别背景噪声和说话者。还对一些情况进行了实验,其中背景噪声或说话者在训练的字典集之外。在这种情况下,自适应字典学习可以实现与完整字典情况相当的性能。
作者:K V Vijay Girish, A G Ramakrishnan and T V Ananthapadmanabha
论文ID:1609.09764
分类:Sound
分类简称:cs.SD
提交时间:2016-10-31