重新审视时间阻塞画板优化

摘要:迭代模板在高性能计算应用程序中被广泛使用。由于GPU加速超级计算机的普及,很多工作已经投入到了优化模板GPU内核上。为了提高数据局部性,时间块是一种优化方法,它将一批时间步骤组合在一起进行处理。鉴于GPU在某些方面越来越像CPU,我们重新考虑了针对GPU的时间块优化。我们探索了如何将时间块方案适应最新的Nvidia GPU的新特性,包括大型临时存储器、硬件预取和设备级同步。我们提出了一种新型的时间块方法EBISU,它采用低设备占用率来推动对大块状瓦片进行积极的深度时间块处理。我们将EBISU与最先进的时间块库STENCILGEN和AN5D进行了比较。我们还将其与配备时间块优化的最先进的模板自动调优工具ARTEMIS和DRSTENCIL进行了比较。在广泛的模板基准测试中,EBISU在每个模板基准测试中获得了多达2.53倍的加速,并且几何平均加速比为1.49倍,超过了目前最先进的性能。

作者:Lingqi Zhang, Mohamed Wahib, Peng Chen, Jintao Meng, Xiao Wang, Toshio Endo, Satoshi Matsuoka

论文ID:2305.07390

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-05-15

PDF 下载: 英文版 中文版pdf翻译中