无效逻辑,等效收益:语言模型提示推理的荒谬性

摘要:不传达为什么的情况下,如何用逻辑上无效的CoT引导来提高性能是不清楚的。最近的工作表明,使用逻辑上无效的CoT引导能够提高性能,几乎与逻辑上有效的CoT引导一样,而将CoT引导的问题特定信息替换为抽象信息或分布之外的信息通常不会损害性能。批评者回应说,这些发现基于数量过少且解决过于容易的任务,无法得出有意义的结论。为了解决这个争议,我们测试了在BIG-Bench基准测试中最难的任务(称为BIG-Bench Hard,简称BBH)上,逻辑无效的CoT引导是否能够提供与逻辑上有效的引导相同水平的性能提升。我们发现,在BBH任务上,逻辑无效的推理引导确实能够实现与逻辑上有效的推理引导相似的性能提升。我们还发现,一些先前工作中使用的CoT引导存在逻辑错误。这表明,在性能提升方面,除了逻辑上有效的推理之外还存在其他联变量。

作者:Rylan Schaeffer, Kateryna Pistunova, Samar Khanna, Sarthak Consul, Sanmi Koyejo

论文ID:2307.10573

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-07-25

PDF 下载: 英文版 中文版pdf翻译中