云平台中的安全节点学习

摘要:云平台在每个服务器节点上运行许多软件代理。这些代理负责管理节点的所有操作,并在某些情况下频繁收集数据并做出决策。不幸的是,它们的行为通常基于预定义的静态启发式方法或线下分析;它们没有利用节点上的机器学习(ML)。在本文中,我们首先对Azure中的节点代理进行了分类,并确定了最有可能从节点上的ML受益的代理类别。然后,我们提出了SOL,一个可扩展的框架,用于设计基于ML的代理,以确保其在生产中发生的各种故障条件下的安全性和稳健性。SOL为代理开发人员提供了一个简单的API,并管理了他们编写的特定于代理的函数的调度和运行。我们通过实现三个基于ML的代理来说明SOL的应用,这些代理分别管理CPU核心、节点电源和内存位置。我们的实验表明,(1)ML大幅改善了我们的代理,(2)SOL确保代理在各种故障条件下安全运行。我们得出结论,基于ML的代理显示出重要的潜力,并且SOL可以帮助构建它们。

作者:Yawen Wang, Daniel Crankshaw, Neeraja J. Yadwadkar, Daniel Berger, Christos Kozyrakis, Ricardo Bianchini

论文ID:2201.10477

分类:Operating Systems

分类简称:cs.OS

提交时间:2022-01-26

PDF 下载: 英文版 中文版pdf翻译中