存储栈的故障诊断
摘要:当专业人员面临诊断存储系统故障时,面临着巨大挑战。一个例子是Algolia数据中心发生的“当固态硬盘并不如此可靠时”事件,其中错误地将三星固态硬盘(Samsung SSDs)归咎于由Linux内核漏洞引起的故障。随着系统复杂性不断增加,这样的隐蔽故障可能会更频繁发生。为了解决这一挑战,我们介绍了我们正在进行的名为X-Ray的工作。与传统方法不同,X-Ray利用虚拟化来收集不同层次的事件,并将它们相关联生成一个相关树。此外,通过应用简单的规则,X-Ray可以自动突出显示关键节点。基于5个故障案例的初步结果表明,X-Ray可以有效地缩小故障的搜索空间。
作者:Duo Zhang, Om Rameshwar Gatla, Runzhou Han, Mai Zheng
论文ID:2005.02547
分类:Operating Systems
分类简称:cs.OS
提交时间:2021-07-23