HPC AI500:代表性、可重复和简单的HPC AI基准测试

摘要:基于大规模分布式深度学习算法(HPC AI)的应用在商业和科学计算领域越来越流行,其目标是加快训练时间以达到先进的质量。HPC AI基准测试加快了这一过程。然而,以大规模进行HPC AI系统基准测试存在严重挑战。本文提出了一种代表性、可重复和简化的HPC AI基准测试方法。在《AIBench Training》的十七个AI工作负载中,我们选择了两个具有代表性和可重复性的AI工作负载。所选的HPC AI基准测试包括商业和科学计算:图像分类和极端天气分析。为了排名HPC AI系统,我们提出了一个名为Valid FLOPS的新指标,强调吞吐性能和目标质量。规范、源代码、数据集和HPC AI500排名数据可以从url{https://www.benchcouncil.org/HPCAI500/}获得。

作者:Zihan Jiang, Wanling Gao, Fei Tang, Xingwang Xiong, Lei Wang, Chuanxin Lan, Chunjie Luo, Hongxiao Li, Jianfeng Zhan

论文ID:2102.12848

分类:Performance

分类简称:cs.PF

提交时间:2021-02-26

PDF 下载: 英文版 中文版pdf翻译中