数据分析工作流的有效性约束

摘要:将科学数据分析工作流程(DAW)迁移到集群基础架构、新的软件堆栈,甚至仅仅是具有一些显著不同属性的新数据集,常常是具有挑战性的。尽管在DAW规范中对步骤(任务)及其相互依赖关系有结构化的定义,但相关的假设可能未进行详细说明或是隐含的。这种隐藏的假设经常导致任务崩溃,而没有合理的错误消息,总体性能差,异常执行或DAW结果错误等后果。在由复杂基础设施堆栈管理的分布式计算集群中寻找此类错误和缺陷可能是乏味和耗时的。 我们提出了有效性约束(VCs)作为DAW语言的新概念来缓解这种情况。VC是指定在DAW执行中必须在某些时刻满足的一些逻辑条件的约束。与DAW一起定义时,VC通过将隐含假设变为明确表述,有助于提高DAW的可移植性、可适应性和可重用性。一旦指定,DAW基础架构可以自动控制VC,并且违规行为可以导致有意义的错误消息和优雅行为(例如终止或调用修复机制)。我们提供了可能的VC的广泛列表,将其分类到多个维度,并将其与相关领域中的类似概念进行比较。我们还提供了将VC实现到现有DAW基础架构中的初步概述。

作者:Florian Schintke, Ninon De Mecquenem, David Frantz, Vanessa Emanuela Guarino, Marcus Hilbrich, Fabian Lehmann, Rebecca Sattler, Jan Arne Sparka, Daniel Speckhard, Hermann Stolte, Anh Duc Vu, Ulf Leser

论文ID:2305.08409

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-05-16

PDF 下载: 英文版 中文版pdf翻译中