VoxCeleb:一个大规模的说话人识别数据集
摘要:生成“野外”收集的大规模独立于文本的说话人识别数据集的目标。 我们提出了一个基于计算机视觉技术的完全自动化流程来创建数据集。 我们的流水线涉及从YouTube获取视频; 使用两流同步卷积神经网络进行主动说话人验证,该网络通过基于卷积神经网络的面部识别来确认说话人的身份。 我们使用这个流水线来策划VoxCeleb,其中包含来自1000多位名人的数十万个“真实世界”的话语。 我们的第二个贡献是将各种最先进的说话人识别技术应用于我们的数据集,以建立基准性能。 我们显示出使用基于卷积神经网络的架构可以获得最佳性能,用于识别和验证。
作者:Arsha Nagrani, Joon Son Chung, Andrew Zisserman
论文ID:1706.08612
分类:Sound
分类简称:cs.SD
提交时间:2020-11-05