i向量在通过维度紧凑性进行说话人识别中的应用-arXiv论文预印本中文版

i向量在通过维度紧凑性进行说话人识别中的应用

摘要：自动说话者识别过程用于提取特征，帮助识别声学信号的组成部分，同时丢弃所有其他干扰因素，如背景噪音、情绪、犹豫等。声学信号由人类产生，并受到发音道的形状（包括舌头、牙齿等）的过滤。发音道的形状决定并产生实时输出的信号。分析开发了声音道形状，展示了短时功率谱的包络。自动语音识别需要高效地从声学信号中提取特征，以有效地构建个体发音道的形状。为了在大量声学信号集合（如语料库）中识别任何声学信号，需要使用高斯混合模型均值超向量实现总变异空间的维数紧致性。该研究提出了一种在总变异空间中实现维数紧致性的高效方法，并使用余弦距离评分来预测小尺寸话语的快速输出分数。

作者：Soumen Kanrar

论文ID：1704.03934

分类：Sound

分类简称：cs.SD

提交时间：2017-04-14

PDF 下载： 英文版中文版pdf翻译中