使用调整的透镜从Transformer中引出潜在预测-arXiv论文预印本中文版

使用调整的透镜从Transformer中引出潜在预测

摘要：迭代推断的视角下，我们对变压器进行了分析，以理解模型预测是如何逐层精细化的。为此，我们为预训练模型中的每个块训练一个仿射探针，使得可以将每个隐藏状态解码为对词汇表的分布。我们的方法，优化的透镜，是对早期的“逻辑透镜”技术的改进，这种技术产生了有用的见解，但通常很脆弱。我们在具有最多20B参数的各种自回归语言模型上测试了我们的方法，结果显示它比逻辑透镜更具有预测性、可靠性和无偏性。通过因果实验，我们展示了优化的透镜使用了与模型本身相似的特征。我们还发现潜在预测的轨迹可以用于高精度地检测恶意输入。需要复现我们的结果的所有代码可以在 https://github.com/AlignmentResearch/tuned-lens 找到。

作者：Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky, Lev McKinney, Stella Biderman, Jacob Steinhardt

论文ID：2303.08112

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-31

PDF 下载： 英文版中文版pdf翻译中