大型语言模型的情绪智力
摘要:大型语言模型(LLMs)在许多学科中展示出了显著的能力,主要通过语言生成、知识利用和复杂推理任务进行评估。然而,它们与人类情感和价值的契合度,在真实世界应用中至关重要,但尚未经过系统评估。在这里,我们评估了LLMs的情感智能(EI),包括情感识别、解读和理解,这对于有效的沟通和社交互动是必要的。具体而言,我们首先开发了一种新颖的心理测量评估,重点关注情感理解(EU),这是EI的核心组成部分,适用于人类和LLMs。该测试要求在现实情境中评估复杂的情感(例如惊讶、喜悦、迷惑、骄傲)。通过从500多名成年人构建一个参考框架,我们测试了各种主流LLMs。大多数LLMs的EQ得分都在平均水平以上,其中GPT-4的EQ为117,超过了89\%的人类参与者。有趣的是,多元模式分析揭示了一些LLMs显然没有依靠类似人类的机制来实现人类水平的性能,因为它们的表达模式在质上与人类有所不同。此外,我们讨论了模型大小、训练方法和架构等因素对LLMs的EQ的影响。总之,我们的研究提出了LLMs人类特征的心理测量评估之一,这可能为追求高智能和情感智能的LLMs的未来发展提供启示。项目网站:https://emotional-intelligence.github.io/
作者:Xuena Wang, Xueting Li, Zi Yin, Yue Wu and Liu Jia
论文ID:2307.09042
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-31