整数矩阵乘法单元上的DGEMM

摘要:使用深度学习硬件通过降低计算精度和专门处理矩阵乘法来实现高吞吐量和低功耗。在机器学习推断中,固定点值计算很常见,即输入和输出值以及模型参数都进行了量化。因此,许多处理器现在配备了快速整数矩阵乘法单元(IMMU)。如何利用这些IMMU提升HPC应用性能而保持准确性是一项具有重要意义的研究内容。我们着重研究了Ozaki方案,该方案通过使用低精度计算单元来计算高精度矩阵乘法,并展示了使用IMMU的优缺点。通过使用整数Tensor Cores的实验结果表明,我们可以比NVIDIA消费级GPU上的cuBLAS和现有Ozaki方案的FP16 Tensor Cores实现更快速的双精度矩阵乘法计算。此外,我们还展示了在保持FP64准确性的情况下,将量子电路模拟加速了高达4.33倍。

作者:Hiroyuki Ootomo, Katsuhisa Ozaki, Rio Yokota

论文ID:2306.11975

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-23

PDF 下载: 英文版 中文版pdf翻译中