ACC饱和器:基于指令的GPU代码自动内核优化

摘要:自动代码优化是一个复杂的过程,通常涉及对程序结构进行多个离散算法的应用,以不可逆地修改。然而,这些算法的设计往往是单片的,并且由于缺乏合作,它们需要重复实施类似的分析。为了解决这个问题,现代优化技术,如等式饱和,允许在不同级别的输入上进行详尽的术语重写,从而简化编译器的设计。 本文提出了等式饱和来优化用于GPU指令编程的顺序代码。我们的方法同时实现了较少的计算、较少的内存访问和高内存吞吐量。我们的完全自动化框架可以在保持依赖性的同时从输入构建单赋值形式,完全重写,并提取出最优的情况。通过实际基准测试,我们展示了多个编译器的显著性能改进。此外,我们强调了计算重排序的优点,并强调了对现代GPU的内存访问顺序的重要性。 标题:用于GPU指令编程的等式饱和顺序代码优化

作者:Kazuaki Matsumura, Simon Garcia De Gonzalo, Antonio J. Pe~na

论文ID:2306.13002

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-26

PDF 下载: 英文版 中文版pdf翻译中