在情感交流环境中利用性别和情绪线索以增强说话者识别性能-arXiv论文预印本中文版

在情感交流环境中利用性别和情绪线索以增强说话者识别性能

摘要：情感言语环境中演讲者识别性能不及中性言语环境。该研究旨在提出、实施和评估一种增强情感言语环境下性能的新方法。新提出的方法基于识别未知演讲者的性别和情感线索。在这项工作中，隐马尔可夫模型和超音段隐马尔可夫模型被用作分类器。这种方法已在我们收集的情感语音数据库上进行了测试，该数据库由六种情感组成。研究结果表明，基于性别和情感线索的演讲者识别性能比仅使用性别线索、仅使用情感线索以及既不使用性别线索也不使用情感线索的性能分别提高了7.22％、4.45％和19.56％。该研究还表明，在情感言语环境中，当分类器完全偏向超音段模型并且声学模型没有影响时，演讲者识别性能最优。基于新提出的方法获得的平均演讲者识别性能与由人类评委主观评估获得的性能相差不超过2.35％。

作者：Ismail Shahin

论文ID：1706.09760

分类：Sound

分类简称：cs.SD

提交时间：2017-06-30

PDF 下载： 英文版中文版pdf翻译中