无服务器查询处理中的资源分配-arXiv论文预印本中文版

无服务器查询处理中的资源分配

摘要：数据湖存储着越来越多的冷数据，这些数据很少被访问，但需要交互响应时间。无服务器函数被视为解决此类问题的一种方式，因为它们提供了一个吸引人的替代方案，无需维护（和支付）固定的基础设施。最近的研究已经分析了无服务器用于数据处理的潜力。在本文中，我们通过研究无服务器资源分配给数据处理任务（函数的数量和大小）的问题来扩展这项工作。我们提出了一个通用模型，粗略估计完成时间和财务成本，并将其应用于现有的无服务器数据处理系统，以提供一个自动识别在好的平衡点上的配置的咨询工具（我们定义为接近其帕累托前沿的“膝部”）。该模型考虑了无服务器的关键方面：启动、计算、网络传输和开销，这取决于输入大小和中间结果交换的函数。通过使用（微）基准测试和TPC-H的部分内容，我们展示了该咨询工具能够准确确定用户所需的配置。此外，我们还发现并讨论了影响无服务器中数据处理效率的几个方面。通过使用自动配置工具来配置资源，降低了使用无服务器进行数据处理的障碍，并通过使用更优的分配而不是过度配置设计，扩大了成本有效的窗口。

作者：Simon Kassing, Ingo M"uller, Gustavo Alonso

论文ID：2208.09519

分类：Databases

分类简称：cs.DB

提交时间：2022-08-23

PDF 下载： 英文版中文版pdf翻译中