大型语言模型中的公平之旅：偏见与去偏-arXiv论文预印本中文版

大型语言模型中的公平之旅：偏见与去偏

摘要：以可负担的训练成本构建廉价的大型语言模型 (CtB-LLMs) 是自然语言处理和理解领域的下一次重大革命。这些CtB-LLMs使得训练可大型语言模型 (VLLMs) 的门槛降低，因此可能成为解决下游任务的许多NLP系统的基础。因此，CtB-LLMs存在的一点或大点偏见可能会造成巨大的危害。在本文中，我们对三种CtB-LLMs家族的偏见进行了详细调查，并证明了去偏技术的有效性和可用性。根据目前的测试，据我们展示肖像偏见得分，LLaMA和OPT家族在性别、种族、宗教和职业方面存在重要的偏见。与对其他LLMs的分析相反，我们发现偏见不是由模型参数数量决定的，而是由困惑度决定的。最后，使用 LoRA 对 OPT 进行去偏可以将偏见减少高达4.12分的标准化刻板印象得分。

作者：Leonardo Ranaldi, Elena Sofia Ruzzetti, Davide Venditti, Dario Onorati, Fabio Massimo Zanzotto

论文ID：2305.13862

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中