在芯片架构新黄金时代实现高性能计算程序的性能可移植性

摘要:高性能计算的重要目标之一是性能可移植性,这个概念已经存在很多年了。由于摩尔定律的失败,仅仅通过增加现有硬件的数量来提高计算机性能已不再可行。高性能计算机的创新迫在眉睫,使得具有多种架构的高性能计算机在生产环境中共存。例如,当前的高性能计算节点常常使用通用GPU和英特尔Xeon Phis等协同加速器来加速通用处理器。随着深度学习的兴起,专用神经网络加速芯片也应运而生。不同架构的协同加速器的出现及其在高性能计算机中的广泛应用,对不同架构的高性能计算机之间的程序性能可移植性提出了挑战。本文总结了当前的性能可移植技术,包括编程模型、串行代码自动并行化、并行代码自动转换等。文章还总结了如何使用科学计算函数库来提高程序的性能和性能可移植性。不同的应用场景需要不同的实现技术来实现性能可移植性。程序开发人员根据自己的程序选择性能可移植性解决方案。事实上,在各种约束条件下,他们在编程效率和优化效果之间进行权衡。

作者:Weifeng Liu, Linping Wu, Xiaowen Xu, Yuren Wang

论文ID:2308.13802

分类:Hardware Architecture

分类简称:cs.AR

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中