探索低资源机器翻译中的后向翻译多样性

摘要:提高神经机器翻译系统性能最常用的方法之一是通过反向翻译。最近的研究试图通过增加生成的翻译的“多样性”来提高该方法的有效性。我们认为以前的工作中用来衡量“多样性”的定义和度量标准是不充分的。本文提出了一个更细致的框架来理解训练数据中的多样性,将其分为词汇多样性和句法多样性。我们提出了衡量这些不同多样性方面的新度量标准,并对低资源的英语-土耳其和中资源的英语-冰岛语的最终神经机器翻译模型性能对这些多样性类型的影响进行了实证分析。我们的研究结果表明,使用核心抽样生成反向翻译可以获得更高的最终模型性能,并且这种生成方法具有很高水平的词汇和句法多样性。我们还发现,相比于句法多样性,词汇多样性对于反向翻译的性能更为重要。

作者:Laurie Burchell, Alexandra Birch, Kenneth Heafield

论文ID:2206.00564

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-09-01

PDF 下载: 英文版 中文版pdf翻译中