极端规模多重网格中的前滚恢复自适应控制

摘要:多核系统的故障频繁导致高等级计算机系统需要研究新的容错技术。在此文中,我们通过引入自适应控制,扩展了一种最近提出的基于算法的多网格迭代恢复方法。故障发生后,在正常部分系统中继续进行迭代解决过程,而在故障域中的解决方案通过异步在线恢复来重构。故障和正常子域中的计算必须以敏感的方式进行协调,尤其应避免超解和次解。这些都会浪费计算资源,从而增加整体解决方案的时间。为了控制局部恢复并确保最佳的重新耦合,我们引入了一种基于数学误差估计的停止准则。它涉及到统一细化网格中的层次权重和残差的加权和,在并行高性能计算的背景下非常合适。重新耦合过程由误差估计的局部贡献来引导。我们提出并比较了两个准则,它们在权重上有所不同。通过在最先进的Peta级超级计算机上解决多达$6.9×10^{11}$个未知数的失效场景,我们验证了该方法的稳健性。

作者:Markus Huber and Ulrich R"ude and Barbara Wohlmuth

论文ID:1804.06373

分类:Mathematical Software

分类简称:cs.MS

提交时间:2018-04-18

PDF 下载: 英文版 中文版pdf翻译中