i向量在通过维度紧凑性进行说话人识别中的应用
摘要:自动说话者识别过程用于提取特征,帮助识别声学信号的组成部分,同时丢弃所有其他干扰因素,如背景噪音、情绪、犹豫等。声学信号由人类产生,并受到发音道的形状(包括舌头、牙齿等)的过滤。发音道的形状决定并产生实时输出的信号。分析开发了声音道形状,展示了短时功率谱的包络。自动语音识别需要高效地从声学信号中提取特征,以有效地构建个体发音道的形状。为了在大量声学信号集合(如语料库)中识别任何声学信号,需要使用高斯混合模型均值超向量实现总变异空间的维数紧致性。该研究提出了一种在总变异空间中实现维数紧致性的高效方法,并使用余弦距离评分来预测小尺寸话语的快速输出分数。
作者:Soumen Kanrar
论文ID:1704.03934
分类:Sound
分类简称:cs.SD
提交时间:2017-04-14