深度卷积神经网络的精细能量和性能分析框架
摘要:在移动和嵌入式平台上,对于深度学习算法的设备端执行需求非常巨大。由于资源和功耗的限制,这些设备给应用程序带来了约束。因此,开发能够解决这个问题的能效解决方案将需要在算法设计、软件和硬件方面进行创新。这种创新需要将基于性能和能耗的深度神经网络进行基准测试和特征化。然而,目前在现有深度学习框架(例如Caffe、Tensorflow、Torch等)中的基准测试研究是基于这些应用在高端CPU和GPU上的性能。在这项工作中,我们引入了一个名为“SyNERGY”的基准测试框架,用于在像NVidia Jetson TX1这样的嵌入式平台上测量11个代表性的深度卷积神经网络的能耗和时间。我们将ARM的Streamline性能分析器与诸如Caffe和CuDNNv5等标准深度学习框架集成在一起,以研究当前深度学习模型在图像处理任务中的执行行为。此外,我们建立了一个初步的多变量线性回归模型,根据CPU核心的SIMD指令执行次数和主存访问次数,预测未见过的神经网络模型的能耗,平均相对测试误差率为8.04+/-5.96%。令人惊讶的是,我们发现可以从应用程序的乘积累加(MAC)计数中仅预测SIMD指令的数量和主存访问次数,从而消除了实际测量的需求。我们的预测结果显示,在除MobileNet外的所有11个网络的实际能耗测量上,平均相对测试误差为7.08+/-6.0%,包括MobileNet后,平均相对测试误差增加到17.33+/-12.2%。
作者:Crefeda Faviola Rodrigues, Graham Riley and Mikel Lujan
论文ID:1803.11151
分类:Performance
分类简称:cs.PF
提交时间:2018-05-15