实现并行作业的零渐近排队延迟

摘要:大规模计算系统中,零排队延迟是非常理想的。现有研究已经表明,通过使用著名的Power-of-$d$-choices (pod)策略,可以渐进地实现零排队延迟,其中探测开销 $d = \Omega\left(\frac{\log N}{1-\lambda}\right)$,而当 $d = O\left(\frac{1}{1-\lambda}\right)$ 时是不可能的,其中 $N$ 是服务器数量,$\lambda$ 是系统的负载。然而,这些结果是基于每个作业是不可分割单位的模型,这个模型没有捕捉到当今主导并行计算范例中作业的并行结构。 因此,本文考虑了每个作业包含一批并行任务的模型。在这个模型下,我们提出了一个新的零(渐进)排队延迟的概念,要求通过策略的作业延迟要接近于由其任务的服务时间的最大值给出的作业延迟,即假设其任务在到达时立即进入服务状态的作业延迟。这个概念量化了对由多个任务组成的作业的作业级排队效应,并因此偏离了文献中针对单一任务作业的传统零排队延迟的概念。 我们证明了在子Halfin-Whitt重负载区域中,可以使用批量填充策略(著名pod策略的变种)实现并行作业的零排队延迟,其中探测开销 $d = \Omega\left(\frac{1}{(1-\lambda)\log k}\right)$,其中 $k$ 是每个作业中的任务数量,且 $k$ 与服务器数量 $N$ 相关合适地进行缩放。这个结果表明,对于并行作业,可以用更小的探测开销实现零排队延迟。我们还建立了一个不可能性结果:我们证明如果 $d = \exp\left(\exp\left(\frac{\log N}{\log k}\right)\right)$,则无法实现零排队延迟。

作者:Wentao Weng, Weina Wang

论文ID:2004.02081

分类:Performance

分类简称:cs.PF

提交时间:2020-11-03

PDF 下载: 英文版 中文版pdf翻译中