使用调整的透镜从Transformer中引出潜在预测

摘要:迭代推断的视角下,我们对变压器进行了分析,以理解模型预测是如何逐层精细化的。为此,我们为预训练模型中的每个块训练一个仿射探针,使得可以将每个隐藏状态解码为对词汇表的分布。我们的方法,优化的透镜,是对早期的“逻辑透镜”技术的改进,这种技术产生了有用的见解,但通常很脆弱。 我们在具有最多20B参数的各种自回归语言模型上测试了我们的方法,结果显示它比逻辑透镜更具有预测性、可靠性和无偏性。通过因果实验,我们展示了优化的透镜使用了与模型本身相似的特征。我们还发现潜在预测的轨迹可以用于高精度地检测恶意输入。需要复现我们的结果的所有代码可以在 https://github.com/AlignmentResearch/tuned-lens 找到。

作者:Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky, Lev McKinney, Stella Biderman, Jacob Steinhardt

论文ID:2303.08112

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中