普通话-英语混合语音识别的语言特定声学边界学习
摘要:代码切换语音识别(CSSR)将在一个句子中切换多种语言或方言的语音进行转录。该任务的主要挑战在于不同语言往往具有相似的发音,这使得模型很难区分它们。在本文中,我们提出了一种从语言特定的声学边界学习的角度解决CSSR任务的方法。我们引入了语言特定的权重估计器(LSWE),分别对不同语言进行声学边界学习建模。此外,还使用非自回归(NAR)解码器和语言变更检测(LCD)模块来辅助训练。在SEAME语料库上进行评估,我们的方法在test_man和test_sge数据集上实现了16.29\%和22.81\%的最佳混合错误率(MER)。我们还在一个9000小时的内部会议代码切换数据集上展示了我们方法的有效性,其中我们的方法实现了相对7.9\%的MER降低。
作者:Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma
论文ID:2306.05279
分类:Sound
分类简称:cs.SD
提交时间:2023-06-09