混合精度算法加速科学计算

摘要:32位操作的性能通常至少比64位操作的性能快两倍。通过使用32位和64位浮点运算的组合,可以显著提高许多密集和稀疏线性代数算法的性能,同时保持所得解的64位准确性。这种方法不仅适用于传统处理器,还适用于其他技术,如现场可编程门阵列(FPGA)、图形处理器单元(GPU)和STI Cell BE处理器。本文介绍了在现代处理器架构和STI Cell BE上的结果。

作者:Marc Baboulin, Alfredo Buttari, Jack Dongarra, Jakub Kurzak, Julie Langou, Julien Langou, Piotr Luszczek, and Stanimire Tomov

论文ID:0808.2794

分类:Mathematical Software

分类简称:cs.MS

提交时间:2015-05-13

PDF 下载: 英文版 中文版pdf翻译中