语言模型预训练期间学习曲线的特征:学习、遗忘和稳定

摘要:语言模型如何在预训练过程中学习进行预测?为了研究这个问题,我们从五个自回归英语语言模型预训练运行中提取学习曲线,用于1M上下文标记。我们观察到在学习生成更长、更连贯的文本之前,语言模型会生成短而重复的短语。我们量化了每个上下文标记在学习曲线中的最终不确定性、运行内变异性、习得年龄、易遗忘性以及跨运行变异性。更常见的标记达到更低的最终不确定性,在预训练运行内和之间显示较少的变异性,在预训练期间更早地学习,并且不太可能在预训练期间“遗忘”。更高的n-gram概率进一步强调了这些效应。不论目标标记如何,较短和更常见的上下文与预测稍微更稳定且更快习得相关。词性的影响也很小,尽管名词往往比动词、副词和形容词更晚习得且习得较不稳定。我们的工作有助于更好地理解语言模型预训练的动态,并为实践中稳定的语言模型的部署提供信息。

作者:Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen

论文ID:2308.15419

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中