对抗网络瓶颈特征用于噪声鲁棒的说话人验证

摘要:通过对抗网络(AN)生成的噪声鲁棒的瓶颈特征表示,我们提出了一种噪声鲁棒的瓶颈特征表示。AN包括两个级联连接的网络,一个编码网络(EN)和一个判别网络(DN)。清洁和有噪声语音的Mel频率倒谱系数(MFCCs)被用作EN的输入,EN的输出被用作噪音鲁棒特征。EN和DN依次进行训练,即在训练DN时,噪声类型被选为训练标签,在训练EN时,所有标签被设置为相同,即清洁语音标签,旨在使AN特征对噪声不变,从而实现噪声鲁棒性。我们评估了所提出特征在基于高斯混合模型通用背景模型的说话人验证系统上的性能,并与通过短时谱幅最小均方误差(STSA-MMSE)和基于深度神经网络的语音增强(DNN-SE)方法增强的MFCC特征进行了比较。在RSR2015数据库上的实验结果表明,所提出的AN瓶颈特征(AN-BN)对不同噪声类型和信噪比明显优于STSA-MMSE和DNN-SE基于MFCC的特征。此外,AN-BN特征能够提高清洁条件下的说话人验证性能。

作者:Hong Yu, Zheng-Hua Tan, Zhanyu Ma, Jun Guo

论文ID:1706.03397

分类:Sound

分类简称:cs.SD

提交时间:2017-06-13

PDF 下载: 英文版 中文版pdf翻译中