SCOTT:自洽的思维链提炼
摘要:通过思维链条(CoT)提示,大规模语言模型(LM)展示了为其预测生成自由文本理由的新能力。虽然CoT可以带来显著的改进,但只有在足够大的LM中才能观察到这种收益。更令人担忧的是,生成的理由与LM的预测是否一致或能够合理地解释决策,这并没有什么保证。在这项工作中,我们提出了一种忠实的知识蒸馏方法,从一个数量级更大的教师模型中学习一个小型、自洽的CoT模型。为了形成更好的监督,我们通过对比解码从一个大规模的LM(教师)中引出支持黄金答案的理由,这鼓励教师生成只有在考虑答案时才变得更加合理的令牌。为了确保忠实的蒸馏,我们使用教师生成的理由来学习一个具有反事实推理目标的学生LM,这个目标可以防止学生忽视理由而做出不一致的预测。实验证明,尽管产生相当的最终任务性能,我们的方法可以生成比基准方法更忠实的CoT理由。进一步分析表明,在做决策时,这种模型更加尊重理由;因此,我们可以通过改进理由来提高其性能。
作者:Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren
论文ID:2305.01879
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-09-01