基于短语音片段的深度神经网络说话人识别-arXiv论文预印本中文版

基于短语音片段的深度神经网络说话人识别

摘要：用深度神经网络（DNN）方法研究了有限语音数据对说话人验证的影响。能够减少所需语音数据的长度对于实际应用中说话人验证系统的发展非常重要。实验研究发现，基于DNN音素的高斯概率线性判别分析（GPLDA）系统在NIST 2010 coreext-coreext和截断15秒-15秒评估条件下，分别比GMM-UBM GPLDA系统提高了50%和18%的EER值。此外，当使用短长度（30秒）的语音片段而不是完整长度（2分钟）的语音片段训练GPLDA模型时，在截断15秒-15秒的条件下，DNN-音素 GPLDA系统的EER值提高了7%以上。这是因为短长度的开发i向量具有说话人、会话和语音变化，而GPLDA能够稳健地建模这些变化。对于几种实际应用，可以使用较长的语音片段（2分钟）进行注册，而较短的语音片段（15秒）则用于验证，在这些条件下，DNN-音素 GPLDA系统的EER值比GMM-UBM GPLDA系统提高了26%以上。

作者：Ahilan Kanagasundaram, David Dean, Sridha Sridharan, Clinton Fookes

论文ID：1610.03190

分类：Sound

分类简称：cs.SD

提交时间：2016-10-12

PDF 下载： 英文版中文版pdf翻译中