GPU集群中的分布式训练任务的独立调度
摘要:分布式机器学习(DML)技术使得在合理的时间内训练大型神经网络成为可能。与此同时,随着计算能力增长速度远远超过网络容量,网络通信逐渐成为DML的瓶颈。当前多租户GPU集群面临由哈希碰撞问题引起的网络争用,这不仅进一步增加了通信的开销,而且造成不公平并影响用户体验。本文首先分析了网络争用如何影响具有32个NVIDIA V100 GPU的集群中的训练时间。然后我们提出了vClos,通过联合优化分布式训练中的网络拓扑和通信模式来消除网络争用。同时,还提出了一种OCS-vClos,在叶脊网络中引入一层光电路交换机(OCS),以减少vClos中由资源分配策略引起的潜在网络资源碎片化问题。通过测试实验和基于真实跟踪的大规模仿真,我们验证了vClos相对于现有网络资源调度策略的优越性。
作者:Xinchi Han and Weihao Jiang and Peirui Cao and Qinwei Yang and Yunzhuo Liu and Shuyao Qi and Shengkai Lin and Shizhen Zhao
论文ID:2308.05692
分类:Distributed, Parallel, and Cluster Computing
分类简称:cs.DC
提交时间:2023-08-11