训练动力学的潜在状态模型
摘要:随机性对模型训练的影响尚未被充分理解。数据顺序和初始化的差异如何实际上在模型中显现,以使得某些训练运行优于其他运行或更快地收敛?此外,我们如何解释产生的训练动态和表征不同轨迹的相变?为了理解随机性对神经网络训练的动力学和结果的影响,我们使用不同的随机种子多次训练模型,并在训练过程中计算各种指标,如神经网络权重的$L_2$范数、均值和方差。然后,我们在得到的指标序列上拟合一个隐马尔可夫模型(HMM)。HMM将训练表示为潜在状态之间的转换的随机过程,提供了对训练过程中重要变化的直观概览。使用我们的方法,我们在理解基本任务、图像分类和掩码语言建模方面产生了训练动力学的低维离散表示。我们使用HMM表示来研究相变并识别减慢收敛速度的潜在“绕道”状态。
作者:Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho
论文ID:2308.09543
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-21