减轻公共云中网络故障对性能的影响

摘要:数据中心网络中的一些故障可能需要数小时到数天的时间来修复,因为它们可能需要重启、重新镜像或技术人员的手动操作。为了减少流量影响,云服务提供商通过将流量导向备用路径来减轻故障的影响。自动网络缓解的最新技术使用简单的安全检查和代理度量来确定缓解措施。本文中介绍的SWARM方法通过估计端到端连接级性能(CLP)度量指标来选择比数量级更好的缓解措施。其核心是一个可扩展的CLP估算器,能够快速和准确地排列高保真度的缓解措施,并且在一个大型云服务提供商的故障观察中,在某些情况下超过了现有技术的700倍。

作者:Pooria Namyar, Behnaz Arzani, Daniel Crankshaw, Daniel S. Berger, Kevin Hsieh, Srikanth Kandula, Ramesh Govindan

论文ID:2305.13792

分类:Networking and Internet Architecture

分类简称:cs.NI

提交时间:2023-05-24

PDF 下载: 英文版 中文版pdf翻译中