加速张量核单元的约简和扫描-arXiv论文预印本中文版

加速张量核单元的约简和扫描

摘要：通过深度学习的推动，出现了一批专门用于矩阵乘法的专用处理器，称为张量核心单元(TensorCore Units, TCUs)。这些TCUs能够在小矩阵上执行矩阵乘法(通常是4x4或16x16)，以加速深度学习工作负载中的卷积和循环神经网络。在本文中，我们利用NVIDIA的TCU来通过矩阵乘法表达约简和扫描，并展示了在程序简化、效率和性能方面的好处。我们的算法利用了NVIDIA的TCUs，否则这些单元将处于空闲状态，实现了89\%-98\%的峰值内存复制带宽，并且比用于小段尺寸的现有方法(常见于机器学习和科学应用)快了数个数量级(约简快100倍，扫描快3倍)。我们的算法在降低约简功耗高达22\%，扫描功耗高达16\%的同时实现了这一目标。

作者：Abdul Dakkak, Cheng Li, Isaac Gelado, Jinjun Xiong, Wen-mei Hwu

论文ID：1811.09736

分类：Performance

分类简称：cs.PF

提交时间：2019-11-26

PDF 下载： 英文版中文版pdf翻译中