重新思考机器学习集体通信作为多商品流问题
摘要:我们展示了近期提出的用于机器学习集群的通信调度器在应对训练更大模型所带来的问题规模增加方面存在无法扩展的问题。这些方法通常也会产生次优的调度方案。我们将其与网络工程中类似的问题联系起来,提出了一种新的方法,名为TECCL,可以更快地在更大的拓扑结构上找到更高质量的调度方案(例如,更快地完成集合操作和/或发送较少的字节数)。我们展示了在许多不同的GPU拓扑结构上的结果,表明其相对于现有技术的显著改进。
作者:Behnaz Arzani, Siva Kesava Reddy Kakarla, Miguel Castro, Srikanth Kandula, Saeed Maleki, Luke Marshall
论文ID:2305.13479
分类:Networking and Internet Architecture
分类简称:cs.NI
提交时间:2023-05-24