可组合的保持函数性质的Transformer架构扩展-arXiv论文预印本中文版

可组合的保持函数性质的Transformer架构扩展

摘要：通过逐步增加变压器神经网络的大小，同时保持功能，来扩展模型的容量。在每个转换的最小初始化约束下提供精确的功能保持证明。通过在训练期间逐步扩展架构，所提出的方法可能实现更大、更强大模型的高效训练管道。

作者：Andrea Gesmundo and Kaitlin Maile

论文ID：2308.06103

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-14

PDF 下载： 英文版中文版pdf翻译中