PERKS:面向迭代内存绑定GPU应用的本地化优化执行模型

摘要:使用内存限制的迭代求解器在高性能计算代码中常见。典型的GPU实现在主机端有一个循环,每个时间/算法步骤调用GPU内核。每个内核的终止隐式地在每个时间步骤之后进行解决方案推进后所需的屏障操作。我们提出了一种执行模型,用于运行内存限制的迭代GPU内核:持续内核(PERKS)。在这个模型中,时间循环被移到持续内核内部,并且使用设备范围的屏障进行同步。然后,通过在每个时间步骤中将部分输出缓存在未使用的寄存器和共享内存中,减少了对设备内存的流量。PERKS可以泛化到任何迭代求解器上:它们在很大程度上独立于求解器的实现。我们解释了PERKS的设计原则,并且证明了PERKS对于各种迭代2D/3D图案基准(2D图案的几何平均加速比为$2.12$x,3D图案的几何平均加速比为$1.24$x,超过最先进的库),以及Krylov子空间共轭梯度求解器(在较小的SuiteSparse SpMV数据集中的几何平均加速比是$4.86$x,在较大的SpMV数据集中的几何平均加速比是$1.43$x,超过最先进的库)。所有基于PERKS的实现可在此处找到:https://github.com/neozhang307/PERKS。

作者:Lingqi Zhang, Mohamed Wahib, Peng Chen, Jintao Meng, Xiao Wang, Toshio Endo, Satoshi Matsuoka

论文ID:2204.02064

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-05-15

PDF 下载: 英文版 中文版pdf翻译中