GPU集群中的分布式训练任务的独立调度-arXiv论文预印本中文版

GPU集群中的分布式训练任务的独立调度

摘要：分布式机器学习（DML）技术使得在合理的时间内训练大型神经网络成为可能。与此同时，随着计算能力增长速度远远超过网络容量，网络通信逐渐成为DML的瓶颈。当前多租户GPU集群面临由哈希碰撞问题引起的网络争用，这不仅进一步增加了通信的开销，而且造成不公平并影响用户体验。本文首先分析了网络争用如何影响具有32个NVIDIA V100 GPU的集群中的训练时间。然后我们提出了vClos，通过联合优化分布式训练中的网络拓扑和通信模式来消除网络争用。同时，还提出了一种OCS-vClos，在叶脊网络中引入一层光电路交换机（OCS），以减少vClos中由资源分配策略引起的潜在网络资源碎片化问题。通过测试实验和基于真实跟踪的大规模仿真，我们验证了vClos相对于现有网络资源调度策略的优越性。

作者：Xinchi Han and Weihao Jiang and Peirui Cao and Qinwei Yang and Yunzhuo Liu and Shuyao Qi and Shengkai Lin and Shizhen Zhao

论文ID：2308.05692

分类：Distributed, Parallel, and Cluster Computing

分类简称：cs.DC

提交时间：2023-08-11

PDF 下载： 英文版中文版pdf翻译中