普通话-英语混合语音识别的语言特定声学边界学习-arXiv论文预印本中文版

普通话-英语混合语音识别的语言特定声学边界学习

摘要：代码切换语音识别(CSSR)将在一个句子中切换多种语言或方言的语音进行转录。该任务的主要挑战在于不同语言往往具有相似的发音，这使得模型很难区分它们。在本文中，我们提出了一种从语言特定的声学边界学习的角度解决CSSR任务的方法。我们引入了语言特定的权重估计器(LSWE)，分别对不同语言进行声学边界学习建模。此外，还使用非自回归(NAR)解码器和语言变更检测(LCD)模块来辅助训练。在SEAME语料库上进行评估，我们的方法在test_man和test_sge数据集上实现了16.29\%和22.81\%的最佳混合错误率(MER)。我们还在一个9000小时的内部会议代码切换数据集上展示了我们方法的有效性，其中我们的方法实现了相对7.9\%的MER降低。

作者：Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma

论文ID：2306.05279

分类：Sound

分类简称：cs.SD

提交时间：2023-06-09

PDF 下载： 英文版中文版pdf翻译中