使用BLIS实现Strassen算法

摘要:消除有关Strassen算法实际实施(DGEMM)矩阵乘法的“街头智慧”。常规智慧:只适用于非常大的矩阵。我们的实现适用于小矩阵。常规智慧:被乘的矩阵应相对方形。我们的实现适用于秩k更新,其中k相对较小(这对于像LAPACK这样的库很重要)。常规智慧:它本质上需要大量的工作空间。我们的实现除了已经纳入传统高性能DGEMM实现的缓冲区外,不需要任何工作空间。常规智慧:Strassen DGEMM接口必须传递工作空间。我们的实现不需要此类工作空间,并且可以与标准DGEMM接口兼容。常规智慧:在多核架构上实现加速很困难。我们的实现即使在利用240个线程的Intel(R) Xeon Phi(TM)协处理器上也能实现对常规DGEMM的加速。我们展示了分布式存储的矩阵乘法如何从这些进展中受益。

作者:Jianyu Huang, Tyler M. Smith, Greg M. Henry, Robert A. van de Geijn

论文ID:1605.01078

分类:Mathematical Software

分类简称:cs.MS

提交时间:2016-05-05

PDF 下载: 英文版 中文版pdf翻译中