i向量在通过维度紧凑性进行说话人识别中的应用

摘要:自动说话者识别过程用于提取特征,帮助识别声学信号的组成部分,同时丢弃所有其他干扰因素,如背景噪音、情绪、犹豫等。声学信号由人类产生,并受到发音道的形状(包括舌头、牙齿等)的过滤。发音道的形状决定并产生实时输出的信号。分析开发了声音道形状,展示了短时功率谱的包络。自动语音识别需要高效地从声学信号中提取特征,以有效地构建个体发音道的形状。为了在大量声学信号集合(如语料库)中识别任何声学信号,需要使用高斯混合模型均值超向量实现总变异空间的维数紧致性。该研究提出了一种在总变异空间中实现维数紧致性的高效方法,并使用余弦距离评分来预测小尺寸话语的快速输出分数。

作者:Soumen Kanrar

论文ID:1704.03934

分类:Sound

分类简称:cs.SD

提交时间:2017-04-14

PDF 下载: 英文版 中文版pdf翻译中