镜像:利用强化学习在批处理GPU集群上实现低中断服务
摘要:基于生产作业跟踪,使用统计学习和强化学习技术设计了一种主动供应器来缓解GPU集群上深度学习训练和推断作业的中断问题。实验结果表明,Mirage可以在三个集群上的不同负载水平下减少17-100%的中断,并保护23%-76%的作业不受任何中断影响。
作者:Qiyang Ding, Pengfei Zheng, Shreyas Kudari, Shivaram Venkataraman, Zhao Zhang
论文ID:2306.14086
分类:Distributed, Parallel, and Cluster Computing
分类简称:cs.DC
提交时间:2023-06-27