SCOTT：自洽的思维链提炼-arXiv论文预印本中文版

SCOTT：自洽的思维链提炼

摘要：通过思维链条（CoT）提示，大规模语言模型（LM）展示了为其预测生成自由文本理由的新能力。虽然CoT可以带来显著的改进，但只有在足够大的LM中才能观察到这种收益。更令人担忧的是，生成的理由与LM的预测是否一致或能够合理地解释决策，这并没有什么保证。在这项工作中，我们提出了一种忠实的知识蒸馏方法，从一个数量级更大的教师模型中学习一个小型、自洽的CoT模型。为了形成更好的监督，我们通过对比解码从一个大规模的LM（教师）中引出支持黄金答案的理由，这鼓励教师生成只有在考虑答案时才变得更加合理的令牌。为了确保忠实的蒸馏，我们使用教师生成的理由来学习一个具有反事实推理目标的学生LM，这个目标可以防止学生忽视理由而做出不一致的预测。实验证明，尽管产生相当的最终任务性能，我们的方法可以生成比基准方法更忠实的CoT理由。进一步分析表明，在做决策时，这种模型更加尊重理由；因此，我们可以通过改进理由来提高其性能。

作者：Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren

论文ID：2305.01879

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中