加速张量核单元的约简和扫描

摘要:通过深度学习的推动,出现了一批专门用于矩阵乘法的专用处理器,称为张量核心单元(TensorCore Units, TCUs)。这些TCUs能够在小矩阵上执行矩阵乘法(通常是4x4或16x16),以加速深度学习工作负载中的卷积和循环神经网络。在本文中,我们利用NVIDIA的TCU来通过矩阵乘法表达约简和扫描,并展示了在程序简化、效率和性能方面的好处。我们的算法利用了NVIDIA的TCUs,否则这些单元将处于空闲状态,实现了89\%-98\%的峰值内存复制带宽,并且比用于小段尺寸的现有方法(常见于机器学习和科学应用)快了数个数量级(约简快100倍,扫描快3倍)。我们的算法在降低约简功耗高达22\%,扫描功耗高达16\%的同时实现了这一目标。

作者:Abdul Dakkak, Cheng Li, Isaac Gelado, Jinjun Xiong, Wen-mei Hwu

论文ID:1811.09736

分类:Performance

分类简称:cs.PF

提交时间:2019-11-26

PDF 下载: 英文版 中文版pdf翻译中