使用SYCL将批处理迭代求解器移植到英特尔GPU

摘要:在计算科学中,批量线性求解器在等离子物理和燃烧模拟等领域起着重要作用。随着Aurora超级计算机和其他即将推出的配备英特尔GPU的系统的即将部署,迫切需要扩展这些求解器在英特尔GPU架构上的能力。本文介绍了我们在使用SYCL编程模型将批量迭代求解器移植和优化到英特尔GPU上的努力。基于SYCL的实现在英特尔GPU Max 1550s(Ponte Vecchio GPU)上展现出令人印象深刻的性能和可扩展性。对于PeleLM应用输入,这些求解器相较我们之前在NVIDIA H100 GPU上的CUDA实现平均提升了2.4倍。通过Ginkgo库,这些批量求解器已经可以在真实科学应用中进行生产使用。

作者:Phuong Nguyen, Pratik Nayak, Hartwig Anzt

论文ID:2308.08417

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-08-21

PDF 下载: 英文版 中文版pdf翻译中