在资源匮乏的达罗毗荼语言中进行情感分析和冒犯性语言识别的多任务学习基准测试
摘要:在获取资源匮乏语言的广泛注释数据方面存在挑战,因此在这项研究中,我们调查了使用多任务学习训练模型是否有益。情感分析和冒犯性语言识别具有相似的话语属性。这些任务的选择是受到用户生成的混合代码数据集缺乏大规模标注数据的驱动。本文针对泰米尔语、马拉亚拉姆语和卡纳达语的混合代码YouTube评论进行研究。我们的框架适用于无论数据集大小如何的其他序列分类问题。实验证明,相对于单任务学习,我们的多任务学习模型可以取得较高的结果,同时减少了在单个任务上训练模型所需的时间和空间限制。对微调模型的分析表明,相对于单任务学习,多任务学习更受青睐,使得三种语言的加权F1分数更高。我们将两种多任务学习方法应用于三种德拉维辛语言:卡纳达语、马拉亚拉姆语和泰米尔语。在情感分析和冒犯语言识别任务中,表现最佳的模型对于卡纳达语、马拉亚拉姆语和泰米尔语的情感分析和冒犯性语言识别任务分别达到了加权F1分数(66.8\%和90.5\%)、(59\%和70\%)以及(62.1\%和75.3\%)。本文讨论的数据和方法已在Github上发布。
作者:Adeep Hande and Siddhanth U Hegde and Ruba Priyadharshini and Rahul Ponnusamy and Prasanna Kumar Kumaresan and Sajeetha Thavareesan and Bharathi Raja Chakravarthi
论文ID:2108.03867
分类:Computational Complexity
分类简称:cs.CC
提交时间:2021-08-10