校准:宽表增量分析的简单技巧

摘要:在标准化数据库上的数据分析通常需要计算和形成昂贵的连接(宽表)。分解查询执行模型将执行视为连接图中关系之间的消息传递,并通过连接推动聚合,以减少中间结果的大小。尽管这加速了查询执行,但它只优化了一个宽表查询。相反,宽表分析通常是交互式的,用户希望对初始查询结构应用增量。例如,用户想要切片、切块和钻取维度,更新表的一部分,并与新表进行连接以进行增强。这种宽表增量分析提供了新的工作共享机会。这项工作表明,在查询执行过程中,仔细存储消息可以将宽表增量分析的加速度提高超过10^5倍,而只产生一个恒定因子的开销。关键挑战是消息对消息传递顺序敏感。为了解决这个挑战,我们借鉴概率图模型中的校准概念,以形成足够的消息来支持任何顺序。我们在新颖的校准交汇超树(CJT)数据结构中实现了这些思想,该数据结构在构建快速、积极复用消息以加速未来查询,并在更新中逐步可维护。我们进一步展示了CJTs在OLAP、查询解释、流数据和为ML增加数据等应用领域的优势。我们的实验评估了CJT的三个版本,它们在单线程定制引擎上运行,云数据库上运行和在Pandas上运行,并显示了在上述应用中,相对于最先进的分解执行算法,提高了30倍至10^5倍。

作者:Zezhou Huang, Eugene Wu

论文ID:2210.03851

分类:Databases

分类简称:cs.DB

提交时间:2022-10-11

PDF 下载: 英文版 中文版pdf翻译中