HPC AI500：代表性、可重复和简单的HPC AI基准测试-arXiv论文预印本中文版

HPC AI500：代表性、可重复和简单的HPC AI基准测试

摘要：基于大规模分布式深度学习算法（HPC AI）的应用在商业和科学计算领域越来越流行，其目标是加快训练时间以达到先进的质量。HPC AI基准测试加快了这一过程。然而，以大规模进行HPC AI系统基准测试存在严重挑战。本文提出了一种代表性、可重复和简化的HPC AI基准测试方法。在《AIBench Training》的十七个AI工作负载中，我们选择了两个具有代表性和可重复性的AI工作负载。所选的HPC AI基准测试包括商业和科学计算：图像分类和极端天气分析。为了排名HPC AI系统，我们提出了一个名为Valid FLOPS的新指标，强调吞吐性能和目标质量。规范、源代码、数据集和HPC AI500排名数据可以从url{https://www.benchcouncil.org/HPCAI500/}获得。

作者：Zihan Jiang, Wanling Gao, Fei Tang, Xingwang Xiong, Lei Wang, Chuanxin Lan, Chunjie Luo, Hongxiao Li, Jianfeng Zhan

论文ID：2102.12848

分类：Performance

分类简称：cs.PF

提交时间：2021-02-26

PDF 下载： 英文版中文版pdf翻译中