极端规模多重网格中的前滚恢复自适应控制-arXiv论文预印本中文版

极端规模多重网格中的前滚恢复自适应控制

摘要：多核系统的故障频繁导致高等级计算机系统需要研究新的容错技术。在此文中，我们通过引入自适应控制，扩展了一种最近提出的基于算法的多网格迭代恢复方法。故障发生后，在正常部分系统中继续进行迭代解决过程，而在故障域中的解决方案通过异步在线恢复来重构。故障和正常子域中的计算必须以敏感的方式进行协调，尤其应避免超解和次解。这些都会浪费计算资源，从而增加整体解决方案的时间。为了控制局部恢复并确保最佳的重新耦合，我们引入了一种基于数学误差估计的停止准则。它涉及到统一细化网格中的层次权重和残差的加权和，在并行高性能计算的背景下非常合适。重新耦合过程由误差估计的局部贡献来引导。我们提出并比较了两个准则，它们在权重上有所不同。通过在最先进的Peta级超级计算机上解决多达$6.9×10^{11}$个未知数的失效场景，我们验证了该方法的稳健性。

作者：Markus Huber and Ulrich R"ude and Barbara Wohlmuth

论文ID：1804.06373

分类：Mathematical Software

分类简称：cs.MS

提交时间：2018-04-18

PDF 下载： 英文版中文版pdf翻译中