在CUDA中并行求解稀疏三角线性系统

摘要:现代多核处理器(如图形处理单元(GPUs))上稀疏矩阵计算的加速已经被认识和研究了十多年。对于许多稀疏矩阵计算核心(如稀疏矩阵-向量乘积和稀疏矩阵-矩阵乘积),已经实现了显著的性能提升。解决稀疏三角结构矩阵的线性系统是另一个重要的稀疏核心,该核心被各种科学和工程应用所需,如稀疏线性求解器。然而,由于计算的固有顺序性质,为了解决稀疏三角线性系统的CUDA中的高效并行算法的开发仍然是一项具有挑战性的任务。在本文中,我们将通过回顾现有的水平调度方法并提出具有自调度技术的算法来重新审视这个问题。数值结果表明,所提算法的CUDA实现相对于cuSPARSE的最先进求解器在结构化模型问题和一般稀疏矩阵中可以提高最多2.6倍的性能。

作者:Ruipeng Li

论文ID:1710.04985

分类:Mathematical Software

分类简称:cs.MS

提交时间:2017-10-16

PDF 下载: 英文版 中文版pdf翻译中