动态工作负载的集群资源管理通过在线优化
摘要:动态多样工作负载的资源管理问题已经吸引了许多研究者的关注,过去十年中,已经提出了许多不同的方法来解决这个问题,特别是对于包含容器化微服务的应用程序,研究人员试图解决动态选择虚拟化服务类型和数量的问题,不同微服务的垂直和水平扩展问题,并将微服务分配给虚拟机以及任务调度问题。在这个背景下,我们认为模拟退火等框架非常适合在线导航性能(SLO)和成本之间的权衡,特别是在复杂的工作负载和云服务的变化时。基于一个结合了性能和成本的宏观目标,退火机制能够实现轻量级和连贯的探索和开发策略。在本文中,我们首先介绍了模拟退火的一些背景知识,然后通过实验证明了模拟退火在不同案例研究中的实用性,包括单一类型工作负载(如分布式深度学习)的服务选择和混合工作负载类型(探索部分分类选项)的服务选择,以及微服务基准测试的容器大小确定。最后,我们讨论了基本退火平台如何应用于其他资源管理问题,与其他方法的混合以及如何适应用户规则。
作者:Nader Alfares, George Kesidis, Ata Fatahi Baarzi, Aman Jain
论文ID:2207.04594
分类:Performance
分类简称:cs.PF
提交时间:2023-08-24