循环处理单元:用于高速机器学习的硬件

摘要:机器学习应用对计算和功耗要求很高。利用各种技术进行硬件加速是一个正在探索的自然步骤。马里兰大学正在开发一种快速且功耗低的硬件,用于机器学习,称为重复处理单元(RPU)。它由一个循环神经网络和一个可训练的输出向量组成,作为一个汇聚计算机的硬件实现。目前,该汇聚计算机在Xilinx 7系列和Ultrascale+ ZYNQ SoCs上使用一个自主布尔网络进行处理,以及一个基于Python的软件API。该RPU能够每秒对多达40M个MNIST图像进行分类,汇聚电路的功耗不超过261mW。使用2048个未时钟门并具有大约100pS过渡时间的阵列,我们可以实现约20个TOPS和75个TOPS/W的性能。

作者:Heidi Komkov, Alessandro Restelli, Brian Hunt, Liam Shaughnessy, Itamar Shani, Daniel P. Lathrop

论文ID:1912.07363

分类:Emerging Technologies

分类简称:cs.ET

提交时间:2019-12-17

PDF 下载: 英文版 中文版pdf翻译中