Flock:规模化的准确网络故障定位

摘要:推断数据中心网络中成千上万个组件故障的根本原因是具有挑战性的,尤其是对于未直接报告的“灰色”故障。故障可以通过端到端测量进行定位,但过去的定位方案要么对大规模网络来说太慢,要么会损失准确性。我们描述了Flock,一个在数据中心规模上实现高准确性和速度的网络故障定位算法和系统。Flock使用概率图模型(PGM)实现高准确性,并结合新技术,在离散值贝叶斯PGM中极大加速了推断。在硬件测试平台上进行的大规模模拟和实验表明,与过去的PGM方法相比,Flock的推断速度提高了>10000倍,并改进了最佳之前数据中心故障定位方法的准确性,在相同输入的遥测数据中降低了推断误差1.19-11倍,并在纳入被动遥测数据后降低了1.2-55倍。我们还证明了Flock在受限制的环境中的推断是最优的。

作者:Vipul Harsh, Tong Meng, Kapil Agrawal, P. Brighten Godfrey

论文ID:2305.03348

分类:Networking and Internet Architecture

分类简称:cs.NI

提交时间:2023-05-08

PDF 下载: 英文版 中文版pdf翻译中