特征化和子集化大数据工作负载
摘要:大数据基准套件必须包含各种数据和工作负载,以便在公平评估大数据系统和架构时提供有用的参考。然而,使用真正全面的基准测试对架构领域提出了巨大的挑战。首先,我们需要彻底了解各种工作负载的行为。其次,我们通常使用的基于模拟的研究方法对大数据来说成本过高。由于大数据是一个新兴领域,越来越多的软件堆栈被提出来促进大数据应用的开发,这进一步加剧了这些挑战。本文首先使用主成分分析(PCA)方法从45个指标中识别出最重要的特征,以描述BigDataBench的大数据工作负载,这是一个综合性的大数据基准套件。其次,我们将从PCA中得到的主成分应用于聚类技术,以研究大数据工作负载之间的相似性,并验证包含不同软件堆栈对于大数据基准评估的重要性。第三,我们选择了七个代表性的大数据工作负载,通过去除冗余的工作负载,并发布了BigDataBench的仿真版本,该版本可从http://prof.ict.ac.cn/BigDataBench/simulatorversion/公开获取。
作者:Zhen Jia, Jianfeng Zhan, Lei Wang, Rui Han, Sally A. McKee, Qiang Yang, Chunjie Luo, and Jingwei Li
论文ID:1409.0792
分类:Performance
分类简称:cs.PF
提交时间:2016-11-15