潜在MPI复合集合的调查:大规模挖掘和分析HPC应用

摘要:将MPI集体操作的负载转移到网络设备(例如网卡和交换机)作为一种有效的机制来改善应用性能,减少节点间和节点内的通信,并绕过MPI软件层。鉴于加速器和可编程网卡/交换机在数据中心中的广泛部署,我们认为通过将这种(基于网络的集体处理)思想扩展到一类更复杂的集体操作,可以进一步提高性能。最基本的复杂集体操作类型是现有集体操作的融合。 在之前的工作中,我们已经证明了这种额外的硬件和软件支持的有效性,并且显示它可以大大改善某些应用的性能。在这项工作中,我们扩展了这种方法。我们试图对大量的MPI应用进行特征化,以确定总体适用性,包括广度和类型,并为硬件设计人员和MPI开发人员提供有关未来负载转移可能性的见解。 除了扩大之前的调查范围,以包括发现(潜在的)新的MPI构造,我们还利用了新的方法来扩展调查过程。之前对MPI使用的调查考虑了基于应用程序开发人员知识构建的应用程序列表。然而,本文采用的方法是基于对大量代码源的自动挖掘。更具体地说,这种挖掘是通过GitHub REST API实现的。我们使用数据库管理系统存储结果并回答查询。另一个优点是,这种方法支持对MPI使用的更复杂分析,这是通过用户查询完成的。

作者:Pouya Haghi, Ryan Marshall, Po Hao Chen, Anthony Skjellum, Martin Herbordt

论文ID:2305.19946

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-01

PDF 下载: 英文版 中文版pdf翻译中