一个尺寸无法适应所有情况:一种自适应的共享无关系数据库管理系统中用于偏斜哈希连接的调度器

摘要:在各种商业分布式关系数据库管理系统中,共享无所采用的架构已被广泛采用。得益于这种架构,查询可以在并行中进行处理,并通过按需水平扩展集群来加速。尽管如此,负载均衡仍然是所有分布式关系数据库管理系统(包括共享无所)所面临的一个具有挑战性的问题,这些系统在数据分布不均的情况下遭受很多困扰。在这项工作中,我们专注于一个代表性的操作符,即哈希连接,并研究了一个集群中节点之间的不均衡如何影响共享无所关系数据库管理系统中任意查询的负载均衡和最终效率。我们发现,现有的分布式哈希连接解决方案在探测表和构建表中的值都不均衡时可能无法提供令人满意的性能。为了解决这个问题,我们提出了一种新颖的分布式哈希连接解决方案,即分区和复制(PnR)。虽然在某些不均衡的情况下PnR可以提供最佳效率,但我们对一组共享无所关系数据库管理系统进行了全面的实验,结果显示,在所有(数据不均衡)情景中,并不存在一种单一的分布式哈希连接解决方案能够胜出。因此,我们进一步提出了一种自适应的分布式哈希连接解决方案,该解决方案具有内置的子操作符成本模型,可根据目标查询的数据不均衡情况在运行时动态选择最佳的分布式哈希连接实现策略。我们在商业共享无所关系数据库管理系统KaiwuDB(前名为ZNBase)中实现了该解决方案,并通过实证研究证明,与许多现有关系数据库管理系统中采用的一系列解决方案相比,自适应模型实现了最佳性能。

作者:Jinxin Yang, Hui Li, Yiming Si, Hui Zhang, Kankan Zhao, Kewei Wei, Wenlong Song, Yingfan Liu, and Jiangtao Cui

论文ID:2303.07787

分类:Databases

分类简称:cs.DB

提交时间:2023-03-15

PDF 下载: 英文版 中文版pdf翻译中