张量分解的性能可移植性分析

摘要:通过压力点分析和屋顶线建模,我们确定了SparTen软件库中Canonical Polyadic Alternating Poisson Regression Multiplicative Update (CP-APR MU)算法的性能瓶颈,并确定了性能的上限。我们的分析表明,矩阵计算$Phi^{(n)}$是SparTen CP-APR MU实现的关键性能瓶颈。此外,我们发现原子操作不是关键瓶颈,而较高的缓存重用可以提供非平凡的性能改进。我们还利用Kokkos库中的网格搜索并行策略参数,在CPU上对$Phi^{(n)}$计算实现了2.25倍的平均加速比,在GPU上实现了1.70倍的加速比。最后,我们通过比较Kokkos实现的STREAM基准和Parallel Sparse Tensor Algorithm (PASTA)基准套件中的matricized tensor times Khatri-Rao product (MTTKRP)基准与使用供应商库的实现来结束我们的研究。我们展示了Kokkos通过单一实现,能够在各种CPU和GPU系统上实现与手动调优代码相当的性能,以便进行张量分解内核的基本操作。总的来说,我们得出结论,Kokkos对于简单的数据密集型操作具有良好的性能可移植性,但对于具有更复杂依赖关系和数据访问模式的算法需要进行调优。

作者:S. Isaac Geronimo Anderson and Keita Teranishi and Daniel M. Dunlavy and Jee Choi

论文ID:2307.03276

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-10

PDF 下载: 英文版 中文版pdf翻译中