HPC AI500: 用于基准测试HPC AI系统的方法、工具、屋脊性能模型和度量标准
摘要:大规模分布式深度学习在商业和科学计算领域越来越受到关注,其目标是加快训练时间以达到最先进的质量水平。高性能计算(HPC)社区对于构建专用于运行这些工作负载的HPC AI系统表现出浓厚兴趣。HPC AI基准测试加快了这个进程。不幸的是,以大规模进行HPC AI系统基准测试会带来严重的挑战。以往的HPC AI基准测试都未能达到等价、相关、代表性、经济实惠和可重复性的目标。本文提出了一种全面的方法、工具、基于屋顶线性性能模型和创新性指标来进行HPC AI系统的基准测试、优化和排名,我们将其称为HPC AI500 V2.0。我们将HPC AI系统抽象为九个独立的层,并提供明确的基准测试规则和流程,以确保每个层次的等价性、可重复性和可复制性。在迄今为止最全面的AI基准测试套件AIBench的基础上,我们分别从商业和科学计算领域提出和构建了图像分类和极端天气分析这两个HPC AI基准测试,既具有代表性又经济实惠。为了评估HPC AI系统的性能和能源效率,我们提出了有效的浮点数运算(Valid FLOPS)和每瓦有效浮点数运算(Valid FLOPS per watt)指标,对未能达到目标质量的情况进行惩罚。我们建议使用卷积和GEMM这两个最常用的内核函数来衡量HPC AI系统的性能上限,并提出了用于指导性能优化的HPC AI屋顶线性性能模型。评估结果表明,我们的方法、基准测试、性能模型和指标能够以可扩展、简单和经济实惠的方式对HPC AI系统进行测量、优化和排名。HPC AI500 V2.0可以在http://www.benchcouncil.org/benchhub/hpc-ai500-benchmark公开获得。
作者:Zihan Jiang, Lei Wang, Xingwang Xiong, Wanling Gao, Chunjie Luo, Fei Tang, Chuanxin Lan, Hongxiao Li, and Jianfeng Zhan
论文ID:2007.00279
分类:Performance
分类简称:cs.PF
提交时间:2020-07-02