微软公司参与2022年VoxCeleb发言人识别挑战的系统-arXiv论文预印本中文版

微软公司参与2022年VoxCeleb发言人识别挑战的系统

摘要：VoxCeleb演讲者识别挑战2022（VoxSRC-22）的第2赛道中，我们描述了我们提交的系统。我们融合了多种表现良好的模型，从监督模型到自监督学习（SSL）预训练模型。监督模型使用VoxCeleb-2 dev数据训练，包括ECAPA-TDNN和Res2Net在非常深的结构中。SSL预训练模型wav2vec和wavLM使用大规模未标记的语音数据进行训练，总共达到一百万小时。这些模型与ECAPA-TDNN级联，并以监督的方式进行进一步的微调，以提取说话者的表示。所有13个模型都进行了得分规范化和校准，然后融合到提交的系统中。我们还在校准阶段探索了音频质量度量，如持续时间，SNR，T60和MOS。在VoxSRC-22评估集上，最佳提交系统的minDCF为0.073，EER为1.436％。

作者：Gang Liu, Tianyan Zhou, Yong Zhao, Yu Wu, Zhuo Chen, Yao Qian, Jian Wu

论文ID：2209.11266

分类：Sound

分类简称：cs.SD

提交时间：2022-09-26

PDF 下载： 英文版中文版pdf翻译中