可组合的保持函数性质的Transformer架构扩展

摘要:通过逐步增加变压器神经网络的大小,同时保持功能,来扩展模型的容量。在每个转换的最小初始化约束下提供精确的功能保持证明。通过在训练期间逐步扩展架构,所提出的方法可能实现更大、更强大模型的高效训练管道。

作者:Andrea Gesmundo and Kaitlin Maile

论文ID:2308.06103

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-14

PDF 下载: 英文版 中文版pdf翻译中