优化成功作业的停留时间的调度

摘要:深度神经网络训练作业和其他迭代计算经常包括可以根据监控指标的当前值取消的检查点。尽管大部分现有研究集中在所有作业(已成功完成和取消的作业)的性能上,但在本研究中,我们探索了能够提高成功作业的逗留时间的调度策略,这对用户来说通常更有价值。我们的模型假设每个作业都有一个已知的离散大小分布(例如,从先前的执行日志估计而来),其中最大的大小值表示成功完成,而其他大小值对应于终止检查点。在所有作业可同时进行调度的单服务器情况下,我们证明最优调度不会中断作业,即使中断开销可以忽略不计。基于此,我们开发了一种调度策略,当作业数量趋近无穷大时,可以渐近地最小化成功作业的逗留时间。通过大量的数值研究,我们表明,即使作业数量有限,该策略的性能也优于现有的替代方案。对于具有多个服务器和动态作业到达的更现实的情况,我们提出了一种基于单服务器调度策略的在线方法。通过广泛的模拟研究,使用实际的跟踪数据,我们证明了与现有技术相比,这种在线方法可以得到更好的成功作业平均逗留时间。

作者:Yuan Yao and Marco Paolieri and Leana Golubchik

论文ID:2205.12891

分类:Performance

分类简称:cs.PF

提交时间:2022-09-30

PDF 下载: 英文版 中文版pdf翻译中