迈向科学工作流的高级监控

摘要:科学工作流由成千上万个高度并行化的任务组成,在涉及许多组件的分布式环境中执行。自动追踪和调查组件和任务的性能指标、追踪和行为对于支持终端用户具有一定的抽象层次是必要的,因为大量数据无法手动分析。科学工作流的执行和监控涉及许多组件,包括集群基础架构、资源管理器、工作流和工作流任务。在这样的执行环境中,所有组件都访问不同的监控指标,并以不同的抽象级别提供指标。对来自不同组件的观察指标及其相互依赖关系的组合和分析仍然广泛被忽视。 我们指定了四个不同的监控层,可以作为科学工作流执行上下文中监控责任和组件交互的架构蓝图。我们描述了受四个层面影响的不同监控指标以及层之间的相互作用方式。最后,我们审查了五个最先进的科学工作流管理系统(SWMS),以评估实施基于我们的四层架构的方法所需的步骤。

作者:Jonathan Bader, Joel Witzke, Soeren Becker, Ansgar L"o{ss}er, Fabian Lehmann, Leon Doehler, Anh Duc Vu, and Odej Kao

论文ID:2211.12744

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-19

PDF 下载: 英文版 中文版pdf翻译中