语言模型预训练期间学习曲线的特征：学习、遗忘和稳定-arXiv论文预印本中文版

语言模型预训练期间学习曲线的特征：学习、遗忘和稳定

摘要：语言模型如何在预训练过程中学习进行预测？为了研究这个问题，我们从五个自回归英语语言模型预训练运行中提取学习曲线，用于1M上下文标记。我们观察到在学习生成更长、更连贯的文本之前，语言模型会生成短而重复的短语。我们量化了每个上下文标记在学习曲线中的最终不确定性、运行内变异性、习得年龄、易遗忘性以及跨运行变异性。更常见的标记达到更低的最终不确定性，在预训练运行内和之间显示较少的变异性，在预训练期间更早地学习，并且不太可能在预训练期间“遗忘”。更高的n-gram概率进一步强调了这些效应。不论目标标记如何，较短和更常见的上下文与预测稍微更稳定且更快习得相关。词性的影响也很小，尽管名词往往比动词、副词和形容词更晚习得且习得较不稳定。我们的工作有助于更好地理解语言模型预训练的动态，并为实践中稳定的语言模型的部署提供信息。

作者：Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen

论文ID：2308.15419

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中