大型语言模型在棋盘上:对ChatGPT的形式化语言理解和复杂推理能力的研究

摘要:聊天GPT在国际象棋推理任务中的性能评估:对该功能强大的OpenAI语言模型在应对复杂的推理任务中的性能进行研究。我们使用国际象棋作为案例研究,通过评估合法性和质量指标来评估聊天GPT对棋盘的理解能力、对国际象棋规则的遵守以及战略决策能力。我们的评估发现聊天GPT的注意机制存在限制,影响其对形式语言的理解,并揭示了模型自我调节能力不足的问题。我们的研究还揭示了聊天GPT在游戏中相对连贯的策略以及当模型面对更多自然语言或对棋盘状况有更清晰理解时,决策力明显提升。这些发现有助于探索语言模型在自然语言处理之外的能力,并为未来研究提供有价值的信息,以实现展现人类类似认知能力的模型。

作者:Mu-Tien Kuo, Chih-Chung Hsueh, Richard Tzong-Han Tsai

论文ID:2308.15118

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中