可扩展的多节点GPU上的快速傅里叶变换

摘要:我们在本文中介绍了我们的多节点GPU-FFT库的详细信息,以及其在Selene HPC系统上的扩展性。我们的库使用切片分解进行数据划分,并使用MPI在GPU之间进行通信。我们使用最多512个A100 GPU在$1024^3$、$2048^3$和$4096^3$的网格上执行了GPU-FFT。我们观察到,在使用64至512个GPU的情况下,$4096^3$网格的扩展性良好。我们报告了使用Cray XC40的196608个核心执行的$1536^3$网格的多核FFT的时间与使用128个GPU的$2048^3$网格的GPU-FFT的时间相当。GPU-FFT的效率是由于A100显卡的快速计算能力和通过NVlink进行高效通信。

作者:Manthan Verma, Soumyadeep Chatterjee, Gaurav Garg, Bharatkumar Sharma, Nishant Arya, Shashi Kumar, Anish Saxena, Mahendra K. Verma

论文ID:2202.12756

分类:Computational Physics

分类简称:physics.comp-ph

提交时间:2022-02-28

PDF 下载: 英文版 中文版pdf翻译中