孟加拉语的吉大港方言中的粗俗言论检测-arXiv论文预印本中文版

孟加拉语的吉大港方言中的粗俗言论检测

摘要：在线欺凌和骚扰的负面影响随着互联网的普及而增加，特别是在社交媒体中。其中一种解决方案是使用自然语言处理（NLP）和机器学习（ML）方法自动检测有害言论，但是在低资源语言如孟加拉语的Chittagonian方言中，这些方法受到限制。本研究着重于使用监督式机器学习和深度学习算法在社交媒体中检测粗俗言论。逻辑回归方法取得了有希望的准确率（0.91），而简单RNN结合Word2vec和fastText的准确率较低（0.84-0.90），突显了神经网络算法需要更多数据的问题。

作者：Tanjim Mahmud, Michal Ptaszynski, Fumito Masui

论文ID：2308.15448

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中