论文蒸馏:研究自然语言处理模型中偏见对仇恨言论检测的影响

摘要:研究NLP模型中的偏见对仇恨言论检测任务的影响:可解释性、冒犯性刻板印象偏见和公平性。总结博士论文的主要发现,并说明如何使广大NLP社区受益。最后,讨论重要的未来研究方向。研究结果表明,NLP模型中的偏见从这三个角度影响了仇恨言论检测任务。除非我们开始将社会科学纳入NLP模型中的偏见研究中,否则我们将无法有效地克服目前在测量和减轻NLP模型中偏见方面的局限性。

作者:Fatma Elsafoury

论文ID:2308.16549

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-09-01

PDF 下载: 英文版 中文版pdf翻译中