探索谷歌集群工作负载追踪：分析应用程序故障特征和用户行为-arXiv论文预印本中文版

探索谷歌集群工作负载追踪：分析应用程序故障特征和用户行为

摘要：大规模云数据中心因其高可用性、快速弹性、可扩展性和低成本而受到欢迎。然而，由于缺乏适当的资源利用和早期故障检测，当前数据中心的故障率仍然很高。为了在大规模云数据中心中最大限度地提高资源效率和减少故障率，了解工作负载和故障特性至关重要。在本文中，我们对2019年Google集群跟踪数据集进行了深入分析，该数据集包含来自世界各地八个不同集群的2.4TiB的工作负载跟踪数据。我们探索了Google生产云中失败和被杀死的作业的特性，并尝试将它们与关键属性（如资源使用情况、作业优先级、调度类别、作业持续时间和任务重新提交次数）相相关联。我们的分析揭示了导致作业失败的几个重要特性，因此可用于开发早期故障预测系统。此外，我们提出了一种新颖的使用分析方法，以识别用户提交的作业和任务的异质性。我们能够识别出控制单个集群上超过一半所有收集事件的特定用户。我们认为这些特性可以用于开发早期作业故障预测系统，该系统可用于动态重新调度作业调度程序，从而提高大规模云数据中心的资源利用率并降低故障率

作者：Faisal Haque Bappy, Tariqul Islam, Tarannum Shaila Zaman, Raiful Hasan, Carlos Caicedo

论文ID：2308.02358

分类：Distributed, Parallel, and Cluster Computing

分类简称：cs.DC

提交时间：2023-08-07

PDF 下载： 英文版中文版pdf翻译中