从资源使用数据中追踪系统行为

摘要:通过使用TACC统计等工具收集的资源使用数据,可以捕获高性能计算系统中节点的资源利用情况。我们提出了一种分析资源使用数据以了解系统性能并识别性能异常的方法。核心思想是将数据建模为一个三维张量,对应于计算节点、使用指标和时间。使用原始张量与从低秩张量分解重建的张量之间的重构误差作为标量性能指标,使我们能够在线监测系统的性能。然后,利用这个误差统计量进行异常检测,其依赖于假设,即系统的正常/例行行为可以用原始张量的低秩近似来捕捉。我们使用从系统日志中收集的信息评估算法的性能,并展示了所提方法发现的性能异常与系统日志中报告的关键错误的相关性。结果展示了来自德克萨斯先进计算中心(TACC)的Lonestar4系统2013年收集的数据。

作者:Niyazi Sorkunlu, Varun Chandola, Abani Patra

论文ID:1705.10756

分类:Performance

分类简称:cs.PF

提交时间:2017-05-31

PDF 下载: 英文版 中文版pdf翻译中