Glot500:将多语种语料库和语言模型扩展到500种语言

摘要:通过持续的预训练,我们创建了一个覆盖511种主要为低资源语言的LLM,即Glot500-m,对这方面的努力的重要部分是收集和整理覆盖这些511种语言的Glot500-c语料库,用于训练Glot500-m。我们在这些语言中的五个不同任务上评估了Glot500-m。与XLM-R基线相比,在高资源语言和低资源语言方面都观察到了明显的改进。我们的分析表明,没有单一因素可以解释多语种LLM表示的质量。相反,质量取决于多种因素的组合,包括语料库大小、脚本,与相关语言的"帮助"以及模型的总容量。我们的工作解决了NLP研究的一个重要目标:我们不应该将NLP限制在世界语言的一小部分上,而应该努力支持尽可能多的语言,以将NLP技术的好处带给所有语言和文化。代码、数据和模型可在https://github.com/cisnlp/Glot500上获取。

作者:Ayyoob Imani and Peiqin Lin and Amir Hossein Kargaran and Silvia Severini and Masoud Jalili Sabet and Nora Kassner and Chunlan Ma and Helmut Schmid and Andr''e F. T. Martins and Franc{c}ois Yvon and Hinrich Sch"utze

论文ID:2305.12182

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中