语言识别的开放数据集与模型-arXiv论文预印本中文版

语言识别的开放数据集与模型

摘要：语言识别（LID）是许多自然语言处理流程中的基本步骤。然而，目前的LID系统在低资源语言上仍然存在不完美的问题。我们提出了一个LID模型，它在201种语言中取得了0.93的宏平均F1得分和0.033的误报率，超过了之前的工作。我们通过在经过审核的单语数据集上进行训练来实现这一点，我们通过手动审查来确保每个来源和每种语言的可靠性。我们将模型和数据集都提供给研究社区。最后，我们对我们模型的性能进行了详细分析，与现有的开放模型和语言类别进行了比较。

作者：Laurie Burchell, Alexandra Birch, Nikolay Bogoychev and Kenneth Heafield

论文ID：2305.13820

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-31

PDF 下载： 英文版中文版pdf翻译中