可扩展的多节点GPU上的快速傅里叶变换-arXiv论文预印本中文版

可扩展的多节点GPU上的快速傅里叶变换

摘要：我们在本文中介绍了我们的多节点GPU-FFT库的详细信息，以及其在Selene HPC系统上的扩展性。我们的库使用切片分解进行数据划分，并使用MPI在GPU之间进行通信。我们使用最多512个A100 GPU在$1024^3$、$2048^3$和$4096^3$的网格上执行了GPU-FFT。我们观察到，在使用64至512个GPU的情况下，$4096^3$网格的扩展性良好。我们报告了使用Cray XC40的196608个核心执行的$1536^3$网格的多核FFT的时间与使用128个GPU的$2048^3$网格的GPU-FFT的时间相当。GPU-FFT的效率是由于A100显卡的快速计算能力和通过NVlink进行高效通信。

作者：Manthan Verma, Soumyadeep Chatterjee, Gaurav Garg, Bharatkumar Sharma, Nishant Arya, Shashi Kumar, Anish Saxena, Mahendra K. Verma

论文ID：2202.12756

分类：Computational Physics

分类简称：physics.comp-ph

提交时间：2022-02-28

PDF 下载： 英文版中文版pdf翻译中