CausalRCA:基于因果推断的微服务应用精确定位细粒度根因

摘要:微服务应用程序在云中快速恢复和减少损失的能力非常重要,有效地定位性能异常的根本原因至关重要。 根据能够定位的原因的粒度,服务操作员可以采取不同的措施,例如,如果只能定位故障的服务(即粗粒度),则重启或迁移服务,或者如果能够定位故障服务上的特定指标(即细粒度),则扩展资源。 以往的研究主要关注粗粒度故障服务定位,现在对细粒度根因定位进行越来越多的关注,以识别故障服务和指标。 最近,基于因果推断(CI)的方法在根本原因定位方面越来越受欢迎,但目前使用的CI方法存在一些限制,例如线性因果关系假设和严格的数据分布要求。 为了解决这些挑战,我们提出了一个名为CausalRCA的框架,用于实现细粒度、自动化和实时的根本原因定位。 CausalRCA使用基于梯度的因果结构学习方法生成加权因果图,并使用根本原因推断方法定位根本原因指标。我们进行了粗粒度和细粒度的根本原因定位,以评估CausalRCA的定位性能。实验结果表明,CausalRCA在定位准确性方面明显优于基线方法,例如,在故障服务的细粒度根本原因指标定位中,平均AC@3为0.719,与基线方法相比平均增加了10%。此外,平均Avg@5提高了9.43%。

作者:Ruyue Xin, Peng Chen, Zhiming Zhao

论文ID:2209.02500

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-05-09

PDF 下载: 英文版 中文版pdf翻译中