基于GMM的i向量说话人识别
摘要:基于i-矢量的说话人识别过程是从一组现有说话人中识别特定的声带。在说话人识别过程中,未知说话人的语音样本将针对系统中的每个现有说话人,并给出预测。预测可能是多个现有已知说话人的声音,并且非常接近未知说话人的声音。该模型是通过从语音中提取的声学特征向量构建的高斯混合模型。基于i-矢量的通道相关说话人的维度压缩映射函数和超级矢量根据与说话人的顺序对关联的余弦距离评分给出更好的预测分数。在顺序对中,第一个坐标是未知说话人,即测试说话人,第二个坐标是现有已知说话人,即目标说话人。本文提出了基于i-矢量的预测改进,与规范化的预测分数集进行比较。在模拟中,通过不同渠道和不同语言收集已知说话人的声音。在测试中,使用已知说话人的GMM声学模型和基于GMM的i-矢量说话人声学模型,在测试数据集中的多个聚类中使用。
作者:Soumen Kanrar
论文ID:1704.03939
分类:Sound
分类简称:cs.SD
提交时间:2017-04-14