QTrail-DB:一种用于具有不完美演变性质的数据库的查询处理引擎
摘要:不完美的数据库在许多应用中非常常见,原因包括数据录入错误、传输或整合错误、仪器读数错误以及导致结果错误的实验设置错误。管理和查询处理不完美的数据库是一个非常具有挑战性的问题,因为它要求在数据库引擎中纳入数据的质量。更具挑战性的是,质量通常不是静态的,可能随时间变化。不幸的是,大多数最先进的技术将数据质量问题视为一个离线任务,与查询处理引擎完全隔离(在数据库管理系统之外进行)。因此,最终用户将收到查询结果,无法判断结果是否可信用于进一步分析和决策。在本文中,我们提出了“QTrail-DB”系统,它在根本上扩展了标准的DBMS,以支持具有演变质量的不完美数据库。QTrail-DB引入了一个基于“质量轨迹”这一新概念的质量模型,捕捉了数据质量随时间的演变。QTrail-DB扩展了关系数据模型,将质量轨迹纳入数据库系统。我们提出了一种新的查询代数,称为“QTrail代数”,它能够在查询流水线中无缝透明地传播和推导数据质量。因此,查询的答案将在元组级别自动附带与质量相关的信息。QTrail-DB的传播模型利用了数据库溯源和血统跟踪文献中广泛研究的传播语义,因此不需要开发新的查询优化器。QTrail-DB在PostgreSQL中开发,并使用实际数据集进行实验评估,以证明其效率和实用性。
作者:Maha Asiri, Mohamed Y. Eltabakh
论文ID:2303.06720
分类:Databases
分类简称:cs.DB
提交时间:2023-03-14