Chrion:通过协同使用CPU和GPU优化循环神经网络推断

摘要:在云集群中部署深度学习模型能够提供高效且快速的推理服务,以适应深度学习的广泛应用。这些集群通常配备有主机CPU和加速器,分别负责处理服务请求,即用于输入预处理的通用CPU和用于前向计算的特定领域GPU。循环神经网络在处理时间输入方面起着重要作用,并且由于其高互操作并行性,具有独特的计算特性。因此,我们提出了Chrion,通过协同利用CPU和GPU来优化循环神经网络的推理。我们将CPU-GPU集群中的模型部署建模为在异构设备上有向无环图的NP-hard调度问题。给定ONNX格式的输入模型和用户定义的服务水平目标,Chrion首先通过模型解析和分析进行预处理,然后对图进行分区,为每个运算符选择执行设备。当在线请求到达时,Chrion根据图分区在CPU和GPU上并行执行运算符的前向计算。我们的实验结果显示,在最低延迟模式下,执行时间最多可以减少19.4%,在最低内存占用模式下,与仅在GPU上执行相比,GPU内存占用可以减少67.5%。

作者:Zinuo Cai, Hao Wang, Tao Song, Yang Hua, Ruhui Ma, Haibing Guan

论文ID:2307.11339

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-24

PDF 下载: 英文版 中文版pdf翻译中