语言识别的开放数据集与模型
摘要:语言识别(LID)是许多自然语言处理流程中的基本步骤。然而,目前的LID系统在低资源语言上仍然存在不完美的问题。我们提出了一个LID模型,它在201种语言中取得了0.93的宏平均F1得分和0.033的误报率,超过了之前的工作。我们通过在经过审核的单语数据集上进行训练来实现这一点,我们通过手动审查来确保每个来源和每种语言的可靠性。我们将模型和数据集都提供给研究社区。最后,我们对我们模型的性能进行了详细分析,与现有的开放模型和语言类别进行了比较。
作者:Laurie Burchell, Alexandra Birch, Nikolay Bogoychev and Kenneth Heafield
论文ID:2305.13820
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-31