在数组上高效实现仿射索引置换的GPU实现

摘要:高效利用内存系统是快速GPU算法的关键要素,然而,尽管许多常见算法在内存访问模式上表现出很强的规律性,但在这方面却存在失误。本文提出了一种有效的内核来对数组中的元素进行排列。我们处理一类称为比特矩阵乘补(BMMC)排列的排列,为此我们设计了与简单数组复制速度相当的内核。这是实现基于这些排列的一组数组组合器的第一步。

作者:Mathis Bouverot-Dupuis and Mary Sheeran

论文ID:2306.07795

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-18

PDF 下载: 英文版 中文版pdf翻译中