EasyCrash:在故障下探索非易失性内存的高性能计算中文翻译。
摘要:新兴的非易失性存储器(NVM)对于构建未来的高性能计算具有潜力。利用NVM的非易失性作为主存储器,当应用程序崩溃时,可以使用保留在NVM上的数据对象来重新启动应用程序。本文基于HPC应用程序具有足够内在容错性的观察,探讨了处理故障下的HPC的解决方案。为了提高成功重计算的可能性和可忽略的性能损失,我们引入了EasyCrash,一个在应用程序执行过程中选择性地持久化应用程序数据对象的框架。我们的评估结果显示,EasyCrash将54\%不能正确重计算的崩溃转化为正确的计算,并且性能开销可以忽略不计(平均为1.5\%)。结合EasyCrash和应用程序的内在容错性,82\%的崩溃可以成功重计算。当EasyCrash与传统的检查点方案一起使用时,可以提高最多24\%的系统效率(平均为15\%)。
作者:Jie Ren, Kai Wu, Dong Li
论文ID:1906.10081
分类:Performance
分类简称:cs.PF
提交时间:2019-06-25