基于神经网络的说话人分类和验证系统:增强特征

摘要:一种基于前馈神经网络的新框架用于无关文本的扬声器分类和验证,这是两个相关的扬声器识别系统。通过优化特征和模型训练,该框架实现了百分之百的分类率和小于6%的等误差率。比较传统语音识别系统的严格语音活跃检测(VAD)提取了更强的有声部分用于扬声器识别,扬声器级别的均值和方差归一化消除了同一扬声器样本之间的差异。优化神经网络扬声器分类器的网络结构参数和动态减少的正则化参数用于避免训练在局部最小值中终止,以降低成本进行更深入的训练。通过预测分数归一化提高了扬声器验证的性能,奖励具有明显峰值的扬声器身份指标,并惩罚具有高分数但竞争者更多的弱指标,通过扬声器特定的阈值处理显著降低了ROC曲线中的等误差率。在该研究中使用了8K采样率的TIMIT语料库,其中前200个男性发言者用于训练和测试分类性能,其测试文件用作注册扬声器,而来自剩余126个男性发言者的数据用作域外的扬声器,即用于扬声器验证的冒名顶替者。

作者:Zhenhao Ge, Ananth N. Iyer, Srinath Cheluvaraja, Ram Sundaram, Aravind Ganapathiraju

论文ID:1702.02289

分类:Sound

分类简称:cs.SD

提交时间:2017-03-20

PDF 下载: 英文版 中文版pdf翻译中