使用神经网络说话者分类器通过特征进行说话者变换检测

摘要:实时说话人变换检测的机制是首先使用领域内说话人数据训练一个神经网络无语音信息说话人分类器。通过网络,将领域外说话人的对话语音特征转换为与领域内说话人相似性得分相关的似然向量。这些转换后的特征展现了非常独特的模式,有助于区分说话人并能够使用一些简单直观的距离度量进行说话人变换检测。说话人分类器和说话人变换检测器分别使用TIMIT 数据库中前200个(领域内)和剩下的126个(领域外)男性说话人的语音进行训练/测试。在说话人分类方面,对于任何测试文件,在说话时间至少为0.97秒的情况下,可以实现对200个说话人的100%准确率。对使用说话人分类输出进行说话人变换检测的性能评估了0.5秒、1秒和2秒的检测间隔,使用由不同说话人的语音拼接合成的数据。通过将当前一秒的语音与前一秒进行比较,可以捕捉到近97%的变换,这在其他方法的文献中非常有竞争力。

作者:Zhenhao Ge, Ananth N. Iyer, Srinath Cheluvaraja, Aravind Ganapathiraju

论文ID:1702.02285

分类:Sound

分类简称:cs.SD

提交时间:2017-03-20

PDF 下载: 英文版 中文版pdf翻译中