校准：宽表增量分析的简单技巧-arXiv论文预印本中文版

校准：宽表增量分析的简单技巧

摘要：在标准化数据库上的数据分析通常需要计算和形成昂贵的连接（宽表）。分解查询执行模型将执行视为连接图中关系之间的消息传递，并通过连接推动聚合，以减少中间结果的大小。尽管这加速了查询执行，但它只优化了一个宽表查询。相反，宽表分析通常是交互式的，用户希望对初始查询结构应用增量。例如，用户想要切片、切块和钻取维度，更新表的一部分，并与新表进行连接以进行增强。这种宽表增量分析提供了新的工作共享机会。这项工作表明，在查询执行过程中，仔细存储消息可以将宽表增量分析的加速度提高超过10^5倍，而只产生一个恒定因子的开销。关键挑战是消息对消息传递顺序敏感。为了解决这个挑战，我们借鉴概率图模型中的校准概念，以形成足够的消息来支持任何顺序。我们在新颖的校准交汇超树（CJT）数据结构中实现了这些思想，该数据结构在构建快速、积极复用消息以加速未来查询，并在更新中逐步可维护。我们进一步展示了CJTs在OLAP、查询解释、流数据和为ML增加数据等应用领域的优势。我们的实验评估了CJT的三个版本，它们在单线程定制引擎上运行，云数据库上运行和在Pandas上运行，并显示了在上述应用中，相对于最先进的分解执行算法，提高了30倍至10^5倍。

作者：Zezhou Huang, Eugene Wu

论文ID：2210.03851

分类：Databases

分类简称：cs.DB

提交时间：2022-10-11

PDF 下载： 英文版中文版pdf翻译中