在数组上高效实现仿射索引置换的GPU实现
摘要:高效利用内存系统是快速GPU算法的关键要素,然而,尽管许多常见算法在内存访问模式上表现出很强的规律性,但在这方面却存在失误。本文提出了一种有效的内核来对数组中的元素进行排列。我们处理一类称为比特矩阵乘补(BMMC)排列的排列,为此我们设计了与简单数组复制速度相当的内核。这是实现基于这些排列的一组数组组合器的第一步。
作者:Mathis Bouverot-Dupuis and Mary Sheeran
论文ID:2306.07795
分类:Distributed, Parallel, and Cluster Computing
分类简称:cs.DC
提交时间:2023-07-18