分布式集群中的异步全去中心化SGD

摘要:容错异步随机梯度下降算法在研究论文中给出。SGD是一种广泛应用于优化和学习算法中,用于逼近代价函数$Q$最小值的核心部分。我们的算法设计适用于基于集群的模型,结合了消息传递和共享内存通信层。进程可能发生崩溃,每个集群内部的算法只使用读写操作,并且是无等待的。 对于强凸函数$Q$,我们的算法容忍任意数量的故障,并提供了收敛速度,使得其取得最大的分布加速,超过了顺序SGD的最优收敛速度。 对于任意函数,收敛速度有一个额外的项,它取决于同一迭代中参数之间的最大差异(在$Q$的标准假设下成立)。在这种情况下,通过在每个迭代中使用一个针对基于集群模型的多维近似一致性算法,我们的算法实现了与顺序SGD相同的收敛速度,只是多了一个对数因子。 对于任意函数的算法要求至少大多数集群中至少包含一个非故障进程。我们证明了当优化一些非凸函数时,这个条件是必要的。

作者:Hagit Attiya and Noa Schiller

论文ID:2202.10862

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-14

PDF 下载: 英文版 中文版pdf翻译中