微软公司参与2022年VoxCeleb发言人识别挑战的系统

摘要:VoxCeleb演讲者识别挑战2022(VoxSRC-22)的第2赛道中,我们描述了我们提交的系统。我们融合了多种表现良好的模型,从监督模型到自监督学习(SSL)预训练模型。监督模型使用VoxCeleb-2 dev数据训练,包括ECAPA-TDNN和Res2Net在非常深的结构中。SSL预训练模型wav2vec和wavLM使用大规模未标记的语音数据进行训练,总共达到一百万小时。这些模型与ECAPA-TDNN级联,并以监督的方式进行进一步的微调,以提取说话者的表示。所有13个模型都进行了得分规范化和校准,然后融合到提交的系统中。我们还在校准阶段探索了音频质量度量,如持续时间,SNR,T60和MOS。在VoxSRC-22评估集上,最佳提交系统的minDCF为0.073,EER为1.436%。

作者:Gang Liu, Tianyan Zhou, Yong Zhao, Yu Wu, Zhuo Chen, Yao Qian, Jian Wu

论文ID:2209.11266

分类:Sound

分类简称:cs.SD

提交时间:2022-09-26

PDF 下载: 英文版 中文版pdf翻译中