可扩展的RAID存储子系统的可靠性建模

摘要:RAID存储系统及其各个组成部分(如RAID控制器、外壳、扩展器、互连和磁盘)的可靠性建模对存储系统设计师非常重要。能够表达整个RAID存储系统的所有故障特性的模型可以用于评估设计选择、进行成本可靠性权衡和进行敏感性分析。然而,包含这些细节会使可靠性的计算模型很快不可行。 我们提出了一个可缩放到比以前报告的更大的系统的CTMC(连续时间马尔可夫链)可靠性模型,我们试图尽可能准确地对所有组件进行建模。我们在用户级别使用了几种状态空间缩减技术,例如聚合所有串联组件和分层分解,以减小我们模型的规模。为了自动计算可靠性,我们使用PRISM模型检查器作为CTMC求解器。与之前报告的蒙特卡罗模拟技术相比,我们使用PRISM的建模技术更加实用(在时间和精力方面)。 我们针对RAID存储系统(例如,磁盘、扩展器、外壳)使用Weibull分布研究,对于磁盘,我们在适当的情况下使用相关故障模式,而对于所有其他组件,我们使用具有独立故障模式的指数分布。为了使用CTMC求解器,我们使用指数和的方式来近似表示磁盘的Weibull分布,并且我们确认这个模型的结果与以前的文献中针对RAID磁盘子系统的顺序蒙特卡罗模拟方法得出的结果基本一致。使用可扩展技术的组合,我们能够使用这个模型对具有多达600个硬盘的相当大的配置进行建模和计算可靠性。

作者:Prasenjit Karmakar and K. Gopinath

论文ID:1508.02055

分类:Performance

分类简称:cs.PF

提交时间:2015-08-11

PDF 下载: 英文版 中文版pdf翻译中