重新思考机器伦理--LLM能否通过道德理论的视角进行道德推理?

摘要:制定道德判断是发展道德人工智能系统的重要步骤。目前主要的方法多数采用自下而上的方式,使用大量标注数据根据众包意见训练模型来建立道德判断。这些方法被批评有可能过度泛化于有限的标注者道德立场,同时缺乏可解释性。相对地,自上而下的方法是基于一组原则来制定道德判断。然而,由于之前的语言模型能力有限以及道德原则之间的未解决辩论,该方法仍然停留在概念层面。在这项研究中,我们提出了一个灵活的框架,将大型语言模型(LLM)引导进行基于跨学科研究中已确立的道德理论的道德推理。该理论引导的自上而下框架可以纳入多种道德理论。我们的实验证明了该框架在源于道德理论的数据集上的有效性。此外,我们展示了不同道德理论与现有道德数据集之间的对齐情况。我们的分析展示了现有资源(模型和数据集)在发展可解释的道德判断系统方面的潜力和缺陷。

作者:Jingyan Zhou, Minda Hu, Junan Li, Xiaoying Zhang, Xixin Wu, Irwin King, Helen Meng

论文ID:2308.15399

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中