探索谷歌集群工作负载追踪:分析应用程序故障特征和用户行为

摘要:大规模云数据中心因其高可用性、快速弹性、可扩展性和低成本而受到欢迎。然而,由于缺乏适当的资源利用和早期故障检测,当前数据中心的故障率仍然很高。为了在大规模云数据中心中最大限度地提高资源效率和减少故障率,了解工作负载和故障特性至关重要。在本文中,我们对2019年Google集群跟踪数据集进行了深入分析,该数据集包含来自世界各地八个不同集群的2.4TiB的工作负载跟踪数据。我们探索了Google生产云中失败和被杀死的作业的特性,并尝试将它们与关键属性(如资源使用情况、作业优先级、调度类别、作业持续时间和任务重新提交次数)相相关联。我们的分析揭示了导致作业失败的几个重要特性,因此可用于开发早期故障预测系统。此外,我们提出了一种新颖的使用分析方法,以识别用户提交的作业和任务的异质性。我们能够识别出控制单个集群上超过一半所有收集事件的特定用户。我们认为这些特性可以用于开发早期作业故障预测系统,该系统可用于动态重新调度作业调度程序,从而提高大规模云数据中心的资源利用率并降低故障率

作者:Faisal Haque Bappy, Tariqul Islam, Tarannum Shaila Zaman, Raiful Hasan, Carlos Caicedo

论文ID:2308.02358

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-08-07

PDF 下载: 英文版 中文版pdf翻译中