PROV-IO+: 一种用于高性能计算系统科学数据的跨平台溯源框架

摘要:科学工作流程中的数据溯源,或数据谱系,描述了数据的生命周期。在高性能计算系统上的科学工作流程中,科学家经常寻求多样的溯源(例如,数据产品的起源、数据集的使用模式)。不幸的是,现有的溯源解决方案由于其不兼容的溯源模型和/或系统实现而无法应对这些挑战。在本文中,我们与领域科学家合作,通过分析四个代表性的科学工作流程,确定了具体的溯源需求。基于第一手分析,我们提出了一个名为PROV-IO+的溯源框架,该框架包括一个以I/O为中心的溯源模型,用于精确描述科学数据及其相关的I/O操作和环境。此外,我们构建了PROV-IO+的原型,以在真实的高性能计算系统上以最少的手动工作实现端到端的溯源支持。PROV-IO+框架可以在不同的高性能计算平台上支持容器化和非容器化工作流,并具有在选择各种溯源类别上的灵活性。我们对真实工作流进行的实验表明,PROV-IO+可以有效地满足领域科学家的溯源需求,并具有合理的性能(例如,大多数实验的跟踪开销不超过3.5%)。此外,在我们的实验中,PROV-IO+的性能优于最先进的系统(即ProvLake)。

作者:Runzhou Han, Mai Zheng, Suren Byna, Houjun Tang, Bin Dong, Dong Dai, Yong Chen, Dongkyun Kim, Joseph Hassoun, David Thorsley, Matthew Wolf

论文ID:2308.00891

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-08-03

PDF 下载: 英文版 中文版pdf翻译中