论文蒸馏:研究自然语言处理模型中偏见对仇恨言论检测的影响
摘要:研究NLP模型中的偏见对仇恨言论检测任务的影响:可解释性、冒犯性刻板印象偏见和公平性。总结博士论文的主要发现,并说明如何使广大NLP社区受益。最后,讨论重要的未来研究方向。研究结果表明,NLP模型中的偏见从这三个角度影响了仇恨言论检测任务。除非我们开始将社会科学纳入NLP模型中的偏见研究中,否则我们将无法有效地克服目前在测量和减轻NLP模型中偏见方面的局限性。
作者:Fatma Elsafoury
论文ID:2308.16549
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-09-01