可扩展的多节点GPU上的快速傅里叶变换
摘要:我们在本文中介绍了我们的多节点GPU-FFT库的详细信息,以及其在Selene HPC系统上的扩展性。我们的库使用切片分解进行数据划分,并使用MPI在GPU之间进行通信。我们使用最多512个A100 GPU在$1024^3$、$2048^3$和$4096^3$的网格上执行了GPU-FFT。我们观察到,在使用64至512个GPU的情况下,$4096^3$网格的扩展性良好。我们报告了使用Cray XC40的196608个核心执行的$1536^3$网格的多核FFT的时间与使用128个GPU的$2048^3$网格的GPU-FFT的时间相当。GPU-FFT的效率是由于A100显卡的快速计算能力和通过NVlink进行高效通信。
作者:Manthan Verma, Soumyadeep Chatterjee, Gaurav Garg, Bharatkumar Sharma, Nishant Arya, Shashi Kumar, Anish Saxena, Mahendra K. Verma
论文ID:2202.12756
分类:Computational Physics
分类简称:physics.comp-ph
提交时间:2022-02-28