大规模可扩展的模板算法
摘要:在许多科学和工业应用中,模板计算是核心。不幸的是,在具有基于缓存的内存层次结构的机器上,模板算法的性能表现不佳,由于内存访问的低重用率。本研究表明,对于模板计算,一种利用局部通信策略的新算法有效地利用了Cerebras WSE-2,该机器没有缓存层次结构。本研究重点研究了用于三维波动方程的25点模板有限差分方法,这是地球建模中常用的数值模拟方法。本质上,该算法通过数据通信来交换内存访问,并利用架构提供的快速通信架构。该算法 - 历来受限于内存 - 变为计算受限。这使得实施可以实现接近完美的弱扩展性,可在WSE-2上达到高达503 TFLOPs的性能,这是仅有完整集群才能实现的水平。
作者:Mathias Jacquelin, Mauricio Araya-Polo, Jie Meng
论文ID:2204.03775
分类:Mathematical Software
分类简称:cs.MS
提交时间:2022-04-11