SieveJoin:利用可重复使用的布隆过滤器提升多路连接
摘要:改进数据系统在连接操作方面的性能一直是一个重要问题。最近,越来越多的关注点放在了多路连接性能上,特别是在减少产生中间元组的负面影响方面,这些中间元组最终并没有进入最终结果。我们提出了一种新的多路连接算法,称为SieveJoin,它将着名的Bloomjoin算法扩展到多路连接,并在连接查询执行效率方面取得了最新的性能。SieveJoin的显著创新特点是它允许Bloom过滤器在连接路径中的传播,使系统能够“早早停止”并消除无用的中间连接结果。SieveJoin的关键设计目标是在不影响内存开销的情况下,基于Bloom过滤器高效地“学习”连接结果。我们讨论了延迟多路连接的瓶颈,以及如何使用Bloom过滤器来消除不必要的中间连接结果的生成。我们使用各种数据集对与最新的列存储数据库和多路最坏情况最优连接算法进行了详细实验评估,展示了SieveJoin在响应时间方面的性能提升。
作者:Qingzhi Ma
论文ID:2308.16370
分类:Databases
分类简称:cs.DB
提交时间:2023-09-01