使用SYCL将批处理迭代求解器移植到英特尔GPU-arXiv论文预印本中文版

使用SYCL将批处理迭代求解器移植到英特尔GPU

摘要：在计算科学中，批量线性求解器在等离子物理和燃烧模拟等领域起着重要作用。随着Aurora超级计算机和其他即将推出的配备英特尔GPU的系统的即将部署，迫切需要扩展这些求解器在英特尔GPU架构上的能力。本文介绍了我们在使用SYCL编程模型将批量迭代求解器移植和优化到英特尔GPU上的努力。基于SYCL的实现在英特尔GPU Max 1550s（Ponte Vecchio GPU）上展现出令人印象深刻的性能和可扩展性。对于PeleLM应用输入，这些求解器相较我们之前在NVIDIA H100 GPU上的CUDA实现平均提升了2.4倍。通过Ginkgo库，这些批量求解器已经可以在真实科学应用中进行生产使用。

作者：Phuong Nguyen, Pratik Nayak, Hartwig Anzt

论文ID：2308.08417

分类：Distributed, Parallel, and Cluster Computing

分类简称：cs.DC

提交时间：2023-08-21

PDF 下载： 英文版中文版pdf翻译中