间歇性查询处理的调度

摘要:基于流处理的任务可以通过逐个元组处理或者以微批形式进行处理。在许多应用中,必须在预定的持续时间/窗口内按照特定的截止时间处理元组。使用流处理引擎处理此类查询可能非常低效,因为每个元组或微批通常有很大的开销。通过使用更大的计算窗口可以显着降低计算成本。在这项工作中,我们提出了调度方案,以最小化开销成本同时满足查询截止时间要求。对于这种查询,由于结果仅在截止时间需要,因此可以批量处理元组,而不是使用微批。我们提出了用于单一和多个查询场景的调度方案。所提出的调度算法已实现为一个自定义查询调度器,运行在Apache Spark之上。我们使用TPC-H数据进行的性能研究,在单个和多个查询模式下,与朴素使用Spark流处理相比,显示出数量级的改进。

作者:Saranya C and Sudarshan S

论文ID:2306.06678

分类:Databases

分类简称:cs.DB

提交时间:2023-06-13

PDF 下载: 英文版 中文版pdf翻译中