开发用于强大疫情分析的开放科学平台的分布式高性能计算能力

摘要:COVID-19对科学合作产生了前所未有的影响。这场大流行病及其在科学界的广泛回应,建立起领域专家、数学模型制造者和科学计算专家之间的新关系。然而,从计算角度来看,它也揭示了研究人员利用先进计算系统的能力存在着重大的差距。这些具有挑战性的领域包括获得可扩展计算系统的访问权限,将模型和工作流移植到新系统,共享不同大小的数据,以及生成可供他人复制和验证的结果。根据我们团队在支持COVID-19大流行期间公共卫生决策者的工作经验以及在将高性能计算(HPC)应用于复杂社会系统建模中发现的能力缺口,我们介绍了OSPREY的目标、要求和初步实施情况,这是一个用于稳健流行病分析的开放科学平台。原型实施演示了一个集成、算法驱动的HPC工作流架构,通过协调跨领域的HPC资源来完成任务,并具有强大、安全和自动化访问每个资源的能力。我们展示了可扩展且容错的任务执行、支持快速解决方案算法的异步API、包容性的多语言方法以及高效的广域数据管理。OSPREY示例代码可以在公共代码库上获得。

作者:Nicholson Collier, Justin M. Wozniak, Abby Stevens, Yadu Babuji, Micka"el Binois, Arindam Fadikar, Alexandra W"urth, Kyle Chard, and Jonathan Ozik

论文ID:2304.14244

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-05-11

PDF 下载: 英文版 中文版pdf翻译中