段落级别的机器翻译评估指标的训练与元评估
摘要:机器翻译方法研究在跨越句子层面进行文本翻译时,对于如何评估长篇翻译的自动评估指标的有效性仍不清楚。本研究首先提出了一种方法,用于从现有的句子级数据中创建段落级数据,以进行指标训练和元评估。然后,我们使用这些新数据集来对现有的句子级指标进行基准测试,并训练段落级学习指标。有趣的是,实验结果表明,使用句子级指标对整个段落进行评分与使用设计用于段落级工作的指标一样有效。我们推测这个结果可能与基于参考的评估任务的特性以及我们的数据集在捕捉段落级翻译中出现的所有类型现象方面的限制有关。
作者:Daniel Deutsch and Juraj Juraska and Mara Finkelstein and Markus Freitag
论文ID:2308.13506
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-29