论文蒸馏：研究自然语言处理模型中偏见对仇恨言论检测的影响-arXiv论文预印本中文版

论文蒸馏：研究自然语言处理模型中偏见对仇恨言论检测的影响

摘要：研究NLP模型中的偏见对仇恨言论检测任务的影响：可解释性、冒犯性刻板印象偏见和公平性。总结博士论文的主要发现，并说明如何使广大NLP社区受益。最后，讨论重要的未来研究方向。研究结果表明，NLP模型中的偏见从这三个角度影响了仇恨言论检测任务。除非我们开始将社会科学纳入NLP模型中的偏见研究中，否则我们将无法有效地克服目前在测量和减轻NLP模型中偏见方面的局限性。

作者：Fatma Elsafoury

论文ID：2308.16549

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中