非凸优化的基于双慢估计和动量的分散本地更新与方差缩减

摘要:去中心化学习 (DL) 最近采用了局部更新来减少通信成本,以应对一般非凸优化问题。具体而言,局部更新要求每个节点在与其他节点通信之前对本地模型的参数进行多次更新。然而,大多数现有方法对数据异质性(即非独立同分布的数据分布)非常敏感,并受到随机梯度噪声的不利影响。本文中,我们提出了一种名为 DSE-MVR 的方法来解决这些问题。具体来说,DSE-MVR 引入了双慢估计策略,利用梯度跟踪技术来估计全局累积更新方向,以解决数据异质性问题;同时,为了处理随机噪声,该方法使用了基于小批量动量的方差缩减技术。我们在理论上证明了 DSE-MVR 在 iid 和非 iid 数据分布设置下都可以实现一般非凸优化的最优收敛结果。特别地,通过 DSE-MVR 推导出的收敛速度中的主要项对于大批量或大局部平均间隔(即局部更新步数)与随机噪声无关。此外,我们提出了 DSE-SGD,并在数据异质性设置下从理论上证明了双慢估计策略的重要性。最后,我们进行了大量实验证明了 DSE-MVR 相对于其他最新方法的优越性。

作者:Kangyang Luo, Kunkun Zhang, Shengbo Zhang, Xiang Li and Ming Gao

论文ID:2307.08299

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-18

PDF 下载: 英文版 中文版pdf翻译中