巴巴尔INFN计算集群的监控系统
摘要:大规模集群的监控是一个具有挑战性的问题。需要在连续观察之间保持相对较短的延迟来观察大量设备。受监视的设备集合可能包括个人电脑、网络交换机、磁带库和其他设备。监控活动不应影响系统的性能。在本文中,我们介绍了一个用于大规模集群的监控系统PerfMC。PerfMC由一个XML配置文件驱动,并使用简单网络管理协议(SNMP)进行数据收集。SNMP是许多网络设备实现的标准协议,因此该工具可用于监控各种设备。系统管理员可以通过连接到PerfMC内嵌的WEB服务器来显示每个设备的状态信息。WEB服务器可以生成以时间为函数的不同监视数量的值的图表;它还可以通过将XSL转换应用于集群状态的内部XML表示来生成任意的XML页面。XSL转换可以用于生成普通WEB浏览器可以显示的HTML页面。 PerfMC旨在相对容易配置和操作,并具有高效性。它目前正在用于监视由大约200个双CPU Linux机器组成的BaBar实验的意大利再加工农场。
作者:M. Marzolla and V. Melloni
论文ID:cs/0305054
分类:Performance
分类简称:cs.PF
提交时间:2008-11-26