MPI中的故障感知非集合通信创建和修复
摘要:超级计算机(HPC)体系结构不断增加使得故障的出现越来越频繁。由于MPI是进程间通信的事实标准,但其缺乏适当的故障管理功能,所以这个问题尤为重要。过去的努力使得MPI标准产生了一些扩展,包括ULFM,它能够实现故障管理。然而,ULFM仍然存在诸如修复过程的集体性等限制。本文中,我们克服了这些限制,实现了故障感知的非集体通信器的创建和修复。我们将我们的解决方案集成到现有的故障韧性框架中,并测量了引入应用代码的开销。实验结果表明,我们的解决方案可扩展且引入的开销有限,非集体修复对基于ULFM的应用程序是可行的机会。
作者:Roberto Rocco, Gianluca Palermo
论文ID:2209.01849
分类:Distributed, Parallel, and Cluster Computing
分类简称:cs.DC
提交时间:2023-08-25