端到端语音识别翻译中一致性正则化的实证研究
摘要:使用一致性正则化方法,例如R-Drop(Liang等,2021年)和CrossConST(Gao等,2023年),在神经机器翻译(NMT)领域取得了令人印象深刻的有监督和零样本性能。我们是否可以通过利用一致性正则化来提升端到端(E2E)语音到文本翻译(ST)的性能?在本文中,我们对内模态和跨模态一致性进行了实证研究,并提出了两种训练策略SimRegCR和SimZeroCR,用于常规和零样本情景中的E2E ST。在MuST-C基准测试中的实验结果显示,我们的方法在大多数翻译方向上都实现了最先进的性能。分析证明,内模态一致性带来的正则化对于常规E2E ST来说至关重要,而跨模态一致性则可以弥补模态差距并提升零样本E2E ST的性能。
作者:Pengzhi Gao, Ruiqing Zhang, Zhongjun He, Hua Wu, Haifeng Wang
论文ID:2308.14482
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-29