TaskLAMA：探究语言模型对复杂任务理解的能力-arXiv论文预印本中文版

TaskLAMA：探究语言模型对复杂任务理解的能力

摘要：从大型语言模型(简称LLMs)中提取的知识可以准确地进行结构化复杂任务分解(SCTD)，这是将复杂的实际任务(例如筹办婚礼)分解成由贡献于完成任务的各个步骤组成的有向无环图，其中边表示它们之间的时间依赖关系。SCTD是辅助规划工具的重要组成部分，也是常识推理系统的挑战。我们探索了LLMs能够通过从中提取的知识来准确进行SCTD的能力。我们为这个问题引入了一个高质量的人工注释数据集，并提出了新的评估LLMs性能的公平度量标准。我们的实验发现，LLMs能够有效地将复杂任务分解为个体步骤，相对于最佳基线模型有15%至280%的相对改进。我们还提出了一些方法来进一步提高它们的性能，相对于基准模型有7%至37%的相对改进。然而，我们发现LLMs仍然难以预测两两的时间依赖关系，这揭示了它们在理解复杂任务方面的差距。

作者：Quan Yuan, Mehran Kazemi, Xin Xu, Isaac Noble, Vaiva Imbrasaite, Deepak Ramachandran

论文ID：2308.15299

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中