特征化和子集化大数据工作负载-arXiv论文预印本中文版

特征化和子集化大数据工作负载

摘要：大数据基准套件必须包含各种数据和工作负载，以便在公平评估大数据系统和架构时提供有用的参考。然而，使用真正全面的基准测试对架构领域提出了巨大的挑战。首先，我们需要彻底了解各种工作负载的行为。其次，我们通常使用的基于模拟的研究方法对大数据来说成本过高。由于大数据是一个新兴领域，越来越多的软件堆栈被提出来促进大数据应用的开发，这进一步加剧了这些挑战。本文首先使用主成分分析（PCA）方法从45个指标中识别出最重要的特征，以描述BigDataBench的大数据工作负载，这是一个综合性的大数据基准套件。其次，我们将从PCA中得到的主成分应用于聚类技术，以研究大数据工作负载之间的相似性，并验证包含不同软件堆栈对于大数据基准评估的重要性。第三，我们选择了七个代表性的大数据工作负载，通过去除冗余的工作负载，并发布了BigDataBench的仿真版本，该版本可从http://prof.ict.ac.cn/BigDataBench/simulatorversion/公开获取。

作者：Zhen Jia, Jianfeng Zhan, Lei Wang, Rui Han, Sally A. McKee, Qiang Yang, Chunjie Luo, and Jingwei Li

论文ID：1409.0792

分类：Performance

分类简称：cs.PF

提交时间：2016-11-15

PDF 下载： 英文版中文版pdf翻译中