重新思考机器伦理--LLM能否通过道德理论的视角进行道德推理？-arXiv论文预印本中文版

重新思考机器伦理--LLM能否通过道德理论的视角进行道德推理？

摘要：制定道德判断是发展道德人工智能系统的重要步骤。目前主要的方法多数采用自下而上的方式，使用大量标注数据根据众包意见训练模型来建立道德判断。这些方法被批评有可能过度泛化于有限的标注者道德立场，同时缺乏可解释性。相对地，自上而下的方法是基于一组原则来制定道德判断。然而，由于之前的语言模型能力有限以及道德原则之间的未解决辩论，该方法仍然停留在概念层面。在这项研究中，我们提出了一个灵活的框架，将大型语言模型（LLM）引导进行基于跨学科研究中已确立的道德理论的道德推理。该理论引导的自上而下框架可以纳入多种道德理论。我们的实验证明了该框架在源于道德理论的数据集上的有效性。此外，我们展示了不同道德理论与现有道德数据集之间的对齐情况。我们的分析展示了现有资源（模型和数据集）在发展可解释的道德判断系统方面的潜力和缺陷。

作者：Jingyan Zhou, Minda Hu, Junan Li, Xiaoying Zhang, Xixin Wu, Irwin King, Helen Meng

论文ID：2308.15399

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中