基于超声静默语音界面的神经说话者嵌入
摘要:多说一句, "通过舌头超声视频进行发音到声学的映射旨在从发音运动的录音中重建语音。与语音信号一样,这些录音不仅表示语言内容,而且非常特定于实际说话人。因此,由于缺乏多人数据集,研究人员迄今为止集中在说话人相关性建模上。在这里,我们使用最近发布的TaL80语料库进行多说话人实验。为了模拟说话人特征,我们将在语音处理中流行的x-vector框架调整为与超声舌头视频配合使用。接下来,我们对来自该语料库的50位说话人进行说话人识别实验。然后,我们创建了说话人嵌入向量,并对其进行了其他说话人的评估。最后,我们研究了嵌入向量在多说话人场景中对超声到语音转换网络准确性的影响。在实验中,我们实现了低于3\%的说话人识别错误率,并且我们还发现嵌入向量可以很好地泛化到未知的说话人。我们在多说话人静默语音框架中的首次尝试导致了频谱估计步骤错误率的边际降低。"
作者:Amin Honarmandi Shandiz, L''aszl''o T''oth, G''abor Gosztolya, Alexandra Mark''o, Tam''as G''abor Csap''o
论文ID:2106.04552
分类:Sound
分类简称:cs.SD
提交时间:2021-06-14