如何获得高效的GPU内核：以FMM和FGT算法为例说明-arXiv论文预印本中文版

如何获得高效的GPU内核：以FMM和FGT算法为例说明

摘要：图形处理器上的计算可能是数十年来计算科学中最重要的发展之一。自Beowulf集群问世以来，结合开源软件和商品化硬件，真正实现了高性能计算的民主化，社区一直充满了电力般的活力。与那时一样，这个机遇也带来了挑战。为了利用新架构提供的性能，科学算法的制定需要重新思考核心方法。在这里，我们处理了快速求和算法（快速多极子法和快速高斯变换），并应用算法重设计来实现gpu的性能。所取得的性能改进的进展反映了为gpu的大规模并行架构制定算法的练习。结果是，在一张nvidia Tesla C1060卡上运行的gpu内核超过了500 Gigaflops，接近实际峰值。我们可以自信地说，gpu计算不仅仅是一种时尚，而且真正是高性能计算中不可抗拒的趋势。

作者：Felipe A. Cruz and Simon K. Layton and Lorena A. Barba

论文ID：1009.3457

分类：Mathematical Software

分类简称：cs.MS

提交时间：2011-09-21

PDF 下载： 英文版中文版pdf翻译中