CLSE:语言学上显著实体的语料库

摘要:自然语言生成(NLG)面临的最大挑战之一是正确处理命名实体。命名实体是语法错误的常见来源,如错误的介词、错误的冠词处理或错误的实体屈折。如果不考虑语言表示,这些错误在评估一小组任意选择的参数值或将数据集从语言简单的语言(如英语)翻译成语言复杂的语言(如俄语)时往往被低估。然而,对于某些应用程序来说,广泛准确的语法正确性至关重要--母语人士可能会发现与实体有关的语法错误很傻,很吃力甚至冒犯。 为了使更多的语言多样性的NLG数据集得以创建,我们发布了专家语言学家注释的“语言学显著实体语料库”(Corpus of Linguistically Significant Entities,CLSE)。语料库包括34种语言,涵盖了74种不同的语义类型,支持从航空机票到视频游戏等各种应用。为了展示CLSE的一个可能用途,我们制作了Schema-Guided对话数据集的增强版,SGD-CLSE。利用CLSE的实体和少量人工翻译,我们在三种语言(法语(高资源)、Marathi(低资源)和俄语(高度屈折语言))中创建了一个语言代表性的NLG评估基准。我们建立了神经网络、基于模板的和混合的NLG系统的质量基线,并讨论了每种方法的优势和劣势。

作者:Aleksandr Chuklin, Justin Zhao, Mihir Kale

论文ID:2211.02423

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中