镜像:利用强化学习在批处理GPU集群上实现低中断服务

摘要:基于生产作业跟踪,使用统计学习和强化学习技术设计了一种主动供应器来缓解GPU集群上深度学习训练和推断作业的中断问题。实验结果表明,Mirage可以在三个集群上的不同负载水平下减少17-100%的中断,并保护23%-76%的作业不受任何中断影响。

作者:Qiyang Ding, Pengfei Zheng, Shreyas Kudari, Shivaram Venkataraman, Zhao Zhang

论文ID:2306.14086

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-27

PDF 下载: 英文版 中文版pdf翻译中