检测真实音频录音中的合成语音篡改
摘要:深度伪造操作者利用最新的人造语音和音频技术,可以更好地伪造媒体并传播有恶意的虚假信息。任何具有有限编码技能的人都可以使用免费的语音合成工具,以恶意意图歪曲原始信息,创建具有影响力说话者声音的令人信服的模拟。使用最新的技术,恶意操作者不需要生成整个音频片段;相反,他们可以将部分合成语音或合成语音的片段插入到真实的音频录音中,从而改变原始信息的整个上下文和含义。检测这些插入特别具有挑战性,因为部分修改的音频比完全虚假的信息更容易避开合成语音检测器。本文描述了一种基于x-ResNet架构和概率线性判别分析(PLDA)后端和交错感知得分处理的部分合成语音检测系统。实验结果表明,与非PLDA基准相比,PLDA后端在部分合成数据集中平均错误率降低了25%。
作者:Md Hafizur Rahman, Martin Graciarena, Diego Castan, Chris Cobo-Kroenke, Mitchell McLaren and Aaron Lawson
论文ID:2209.07498
分类:Sound
分类简称:cs.SD
提交时间:2022-09-16