TaskLAMA:探究语言模型对复杂任务理解的能力

摘要:从大型语言模型(简称LLMs)中提取的知识可以准确地进行结构化复杂任务分解(SCTD),这是将复杂的实际任务(例如筹办婚礼)分解成由贡献于完成任务的各个步骤组成的有向无环图,其中边表示它们之间的时间依赖关系。SCTD是辅助规划工具的重要组成部分,也是常识推理系统的挑战。我们探索了LLMs能够通过从中提取的知识来准确进行SCTD的能力。我们为这个问题引入了一个高质量的人工注释数据集,并提出了新的评估LLMs性能的公平度量标准。我们的实验发现,LLMs能够有效地将复杂任务分解为个体步骤,相对于最佳基线模型有15%至280%的相对改进。我们还提出了一些方法来进一步提高它们的性能,相对于基准模型有7%至37%的相对改进。然而,我们发现LLMs仍然难以预测两两的时间依赖关系,这揭示了它们在理解复杂任务方面的差距。

作者:Quan Yuan, Mehran Kazemi, Xin Xu, Isaac Noble, Vaiva Imbrasaite, Deepak Ramachandran

论文ID:2308.15299

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中