在喧嚣的交谈环境中,利用二阶循环超段隐马尔可夫模型提高说话者识别性能

摘要:在正常说话环境中,说话者识别的性能几乎完美;然而,在大声说话环境中,性能明显下降。本研究致力于提出、实施和评估一种称为二阶循环超语素隐马尔可夫模型(CSPHMM2s)的新模型,以减轻大声说话环境中的性能下降。这些提出的模型具有循环超语素隐马尔可夫模型(CSPHMMs)和二阶超语素隐马尔可夫模型(SPHMM2s)的特点。本研究的结果表明,CSPHMM2s的性能优于以下模型:一阶自左至右超语素隐马尔可夫模型(LTRSPHMM1s)、二阶自左至右超语素隐马尔可夫模型(LTRSPHMM2s)和一阶循环超语素隐马尔可夫模型(CSPHMM1s)在大声说话环境中。在这样的说话环境中,利用我们收集的语音数据库,基于LTRSPHMM1s、LTRSPHMM2s、CSPHMM1s和CSPHMM2s的平均说话者识别性能分别为74.6\%、78.4\%、78.7\%和83.4\%。基于CSPHMM2s得到的说话者识别性能接近于基于人类听众的主观评估所得到的结果。

作者:Ismail Shahin

论文ID:1706.09722

分类:Sound

分类简称:cs.SD

提交时间:2017-07-03

PDF 下载: 英文版 中文版pdf翻译中