欺骗检测的噪声化:对加性噪声环境下合成语音检测的分析

摘要:自动说话人验证(ASV)技术最近开始在终端用户应用中用于安全访问个人数据、智能服务或物理设施。与其他生物特征技术类似,说话人验证容易受到欺骗攻击,攻击者通过模仿、重放、文本转语音(TTS)或语音转换(VC)技术冒充特定目标说话人以非法获取系统访问权。我们重点关注TTS和VC,它们代表了最灵活、高级的欺骗攻击。大多数关于合成或转换语音检测的先前研究都是使用高质量的清晰录音进行的。与此同时,欺骗检测器在存在加性噪声的情况下的性能,在实际ASV实施中是一个重要考虑因素,但目前还知之甚少。为此,我们分析了在加性噪声下最先进合成语音检测器在前端特征方面的适用性。我们的比较包括八组声学特征集,其中五组与谱幅有关,三组与谱相位信息有关。我们在ASVSpoof 2015语料库上进行了广泛实验,得出了几个重要的发现。首先,所有的对策即使在相对高的信噪比(SNR)下也失效,并且不能适用于噪声环境。其次,语音增强没有帮助。第三,GMM后端通常优于更复杂的i-vector后端。第四,就所比较的特征而言,梅尔频率倒谱系数(MFCCs)和亚带谱质心幅度系数(SCMCs)在平均性能上表现最好,尽管优胜的方法取决于SNR和噪声类型。最后,使用两种得分融合策略的研究表明,组合不同的基于特征的系统可以提高识别准确性,无论是在清晰条件下还是在噪声环境下对已知和未知攻击。

作者:Cemal Hanilci, Tomi Kinnunen, Md Sahidullah, Aleksandr Sizov

论文ID:1603.03947

分类:Sound

分类简称:cs.SD

提交时间:2016-09-16

PDF 下载: 英文版 中文版pdf翻译中