PSI/J:一个用于提交、监控和管理作业的便携接口
摘要:高性能计算(HPC)应用在不同HPC系统之间的移植是一种普遍的需求,这样可以利用更高性能的硬件,有效利用资源分配,并与大型数据集共同计算。然而,由于HPC系统具有不同的HPC调度器,将科学应用程序移植到不同HPC系统是具有挑战性的。本文介绍了PSI/J,一个作业管理抽象API,旨在简化可在不同HPC调度器实现之间移植的软件组件和应用程序的构建。我们认为这样的系统既是必要的,也是目前没有其他可行的替代方案。我们分析了类似的著名API,并试图确定影响它们发展和被HPC社区采用的因素。我们基于这些分析设计了PSI/J。我们描述了PSI/J如何被集成到三个工作流系统和一个应用程序中,并通过实验证明PSI/J的性能开销最小。
作者:Mihael Hategan-Marandiuc, Andre Merzky, Nicholson Collier, Ketan Maheshwari, Jonathan Ozik, Matteo Turilli, Andreas Wilke, Justin M. Wozniak, Kyle Chard, Ian Foster, Rafael Ferreira da Silva, Shantenu Jha, Daniel Laney
论文ID:2307.07895
分类:Distributed, Parallel, and Cluster Computing
分类简称:cs.DC
提交时间:2023-07-18