如何获得高效的GPU内核:以FMM和FGT算法为例说明

摘要:图形处理器上的计算可能是数十年来计算科学中最重要的发展之一。自Beowulf集群问世以来,结合开源软件和商品化硬件,真正实现了高性能计算的民主化,社区一直充满了电力般的活力。与那时一样,这个机遇也带来了挑战。为了利用新架构提供的性能,科学算法的制定需要重新思考核心方法。在这里,我们处理了快速求和算法(快速多极子法和快速高斯变换),并应用算法重设计来实现gpu的性能。所取得的性能改进的进展反映了为gpu的大规模并行架构制定算法的练习。结果是,在一张nvidia Tesla C1060卡上运行的gpu内核超过了500 Gigaflops,接近实际峰值。我们可以自信地说,gpu计算不仅仅是一种时尚,而且真正是高性能计算中不可抗拒的趋势。

作者:Felipe A. Cruz and Simon K. Layton and Lorena A. Barba

论文ID:1009.3457

分类:Mathematical Software

分类简称:cs.MS

提交时间:2011-09-21

PDF 下载: 英文版 中文版pdf翻译中