通过无监督对齐比较人类和LLMs之间的颜色相似性结构

摘要:大型语言模型(LLMs),如通用预训练转换器(GPT),在各种认知任务中表现出了出色的性能。然而,尚不清楚这些模型是否具有准确推断人类感知表示的能力。先前的研究通过量化人类和LLMs之间的相似性反应模式之间的相关性来解决这个问题。虽然已经显示出人类和LLMs之间的相关性相当高,但简单的相关性分析无法揭示人类和LLMs之间的详细结构对应程度。在这里,我们使用基于Gromov-Wasserstein最优传输的无监督对齐方法以更详细的方式评估人类和LLMs之间相似性结构的等价性。作为可处理的研究,我们通过检查93种颜色的相似性结构,比较了人类(颜色-典型和颜色-非典型参与者)和两个GPT模型(GPT-3.5和GPT-4)的颜色相似性结构。我们的结果表明,颜色-典型人类的相似性结构可以与GPT-4的相似性结构非常好地对齐,与GPT-3.5的相似性结构对齐程度较低。这些结果有助于我们理解LLMs准确推断人类感知的能力,并突出了无监督对齐方法揭示的无法通过简单的相关性分析检测到的详细结构等价性或差异的潜力。

作者:Genji Kawakita, Ariel Zeleznikow-Johnston, Naotsugu Tsuchiya, Masafumi Oizumi

论文ID:2308.04381

分类:Neurons and Cognition

分类简称:q-bio.NC

提交时间:2023-08-09

PDF 下载: 英文版 中文版pdf翻译中