摘要:通过逐步增加变压器神经网络的大小,同时保持功能,来扩展模型的容量。在每个转换的最小初始化约束下提供精确的功能保持证明。通过在训练期间逐步扩展架构,所提出的方法可能实现更大、更强大模型的高效训练管道。
作者:Andrea Gesmundo and Kaitlin Maile
论文ID:2308.06103
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-14
PDF 下载: 英文版 中文版pdf翻译中