基于TensorCore的高精度低精度QR分解和最小二乘求解器在GPU上的翻译。

摘要:使用低精度TensorCore GPU,本文提出了一种大规模混合精度线性最小二乘求解器,实现了高精度。混合精度系统包括创新的算法和实现,与单精度cuSOLVER在QR矩阵分解中相比,速度可提高至14倍,且精度略低,而与双精度直接QR最小二乘求解器相比,速度可提高至10倍,且精度相当。

作者:Shaoshuai Zhang, Panruo Wu

论文ID:1912.05508

分类:Mathematical Software

分类简称:cs.MS

提交时间:2019-12-12

PDF 下载: 英文版 中文版pdf翻译中