无服务器查询处理中的资源分配
摘要:数据湖存储着越来越多的冷数据,这些数据很少被访问,但需要交互响应时间。无服务器函数被视为解决此类问题的一种方式,因为它们提供了一个吸引人的替代方案,无需维护(和支付)固定的基础设施。最近的研究已经分析了无服务器用于数据处理的潜力。在本文中,我们通过研究无服务器资源分配给数据处理任务(函数的数量和大小)的问题来扩展这项工作。我们提出了一个通用模型,粗略估计完成时间和财务成本,并将其应用于现有的无服务器数据处理系统,以提供一个自动识别在好的平衡点上的配置的咨询工具(我们定义为接近其帕累托前沿的“膝部”)。该模型考虑了无服务器的关键方面:启动、计算、网络传输和开销,这取决于输入大小和中间结果交换的函数。通过使用(微)基准测试和TPC-H的部分内容,我们展示了该咨询工具能够准确确定用户所需的配置。此外,我们还发现并讨论了影响无服务器中数据处理效率的几个方面。通过使用自动配置工具来配置资源,降低了使用无服务器进行数据处理的障碍,并通过使用更优的分配而不是过度配置设计,扩大了成本有效的窗口。
作者:Simon Kassing, Ingo M"uller, Gustavo Alonso
论文ID:2208.09519
分类:Databases
分类简称:cs.DB
提交时间:2022-08-23