MDInference: 在移动应用中平衡推理准确性与延迟
摘要:深度神经网络使移动设备能够在用户应用程序中集成各种功能。然而,这些模型的计算复杂性使得在资源有限的移动设备上有效运行它们变得困难。先前的研究通过减少模型复杂性或利用强大的云服务器来解决移动应用中支持深度学习的问题。这些方法分别只关注移动推断的一个方面,因此它们经常在整体性能上做出妥协。 在这项工作中,我们引入了一种综合方法来设计移动深度推断框架。我们首先确定移动深度推断的准确性和延迟两个关键目标以及实现这些目标所必须满足的条件。我们通过设计一个名为MDInference的假设框架来展示我们的综合方法。该框架利用两种互补的技术;一种是模型选择算法,从一组基于云的深度学习模型中选择来提高推断准确性;另一种是设备上的请求复制机制,以限制延迟。通过经验驱动的模拟实验,我们展示了MDInference相对于静态方法在整体准确性方面提高了超过40\%,并且没有违反SLA(Service Level Agreement)规定。此外,我们还展示了在目标延迟为250毫秒的情况下,MDInference在快速的大学网络上在99.74\%的情况下提高了整体准确性,在住宅网络上在96.84\%的情况下提高了整体准确性。
作者:Samuel S. Ogden and Tian Guo
论文ID:2002.06603
分类:Performance
分类简称:cs.PF
提交时间:2020-04-02