训练动力学的潜在状态模型-arXiv论文预印本中文版

训练动力学的潜在状态模型

摘要：随机性对模型训练的影响尚未被充分理解。数据顺序和初始化的差异如何实际上在模型中显现，以使得某些训练运行优于其他运行或更快地收敛？此外，我们如何解释产生的训练动态和表征不同轨迹的相变？为了理解随机性对神经网络训练的动力学和结果的影响，我们使用不同的随机种子多次训练模型，并在训练过程中计算各种指标，如神经网络权重的$L_2$范数、均值和方差。然后，我们在得到的指标序列上拟合一个隐马尔可夫模型（HMM）。HMM将训练表示为潜在状态之间的转换的随机过程，提供了对训练过程中重要变化的直观概览。使用我们的方法，我们在理解基本任务、图像分类和掩码语言建模方面产生了训练动力学的低维离散表示。我们使用HMM表示来研究相变并识别减慢收敛速度的潜在“绕道”状态。

作者：Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho

论文ID：2308.09543

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-21

PDF 下载： 英文版中文版pdf翻译中