存储栈的故障诊断

摘要:当专业人员面临诊断存储系统故障时,面临着巨大挑战。一个例子是Algolia数据中心发生的“当固态硬盘并不如此可靠时”事件,其中错误地将三星固态硬盘(Samsung SSDs)归咎于由Linux内核漏洞引起的故障。随着系统复杂性不断增加,这样的隐蔽故障可能会更频繁发生。为了解决这一挑战,我们介绍了我们正在进行的名为X-Ray的工作。与传统方法不同,X-Ray利用虚拟化来收集不同层次的事件,并将它们相关联生成一个相关树。此外,通过应用简单的规则,X-Ray可以自动突出显示关键节点。基于5个故障案例的初步结果表明,X-Ray可以有效地缩小故障的搜索空间。

作者:Duo Zhang, Om Rameshwar Gatla, Runzhou Han, Mai Zheng

论文ID:2005.02547

分类:Operating Systems

分类简称:cs.OS

提交时间:2021-07-23

PDF 下载: 英文版 中文版pdf翻译中