改进的基于I-vector的说话人识别方法用于带有说话人生成的非语音声音的话语-arXiv论文预印本中文版

改进的基于I-vector的说话人识别方法用于带有说话人生成的非语音声音的话语

摘要：在说话过程中，不仅包含了多种中性语言的变体，而且还明显地插入了几种由说话者产生的非语言声音，如笑声和呼吸声。一个强大的说话者识别系统应该能够识别说话者，无论他的语音中这些变化如何。了解这些变化所代表的说话者特定信息是否相似有助于构建一个良好的说话者识别系统。本文通过考虑说话者的中性语音所捕捉到的说话者变化，分析了语音-笑声（中性语音的一个变体）和笑声（非语音）声音。我们研究了一个基于i-vector的说话者识别系统，该系统仅在中性语音上进行训练，并评估其在语音-笑声和笑声上的性能。此外，我们分析了在训练i-vector说话者识别系统时包含笑声声音的影响。我们的实验结果表明，训练过程中包含笑声声音似乎提供了互补的说话者特定信息，从而使得说话者识别系统的整体性能得到了改善，特别是在包含语音-笑声片段的话语上。

作者：Sri Harsha Dumpala, Ashish Panda, Sunil Kumar Kopparapu

论文ID：1705.09289

分类：Sound

分类简称：cs.SD

提交时间：2017-05-29

PDF 下载： 英文版中文版pdf翻译中