查询不完整的数值数据:在确定和可能答案之间

摘要:具有聚合和算术操作的查询以及不完整数据在现实世界的数据库中很常见,但我们对它们如何相互作用缺乏很好的理解。一方面,基于SQL的系统为数值空值提供了临时规则,另一方面,理论研究主要集中在确定和可能答案的标准概念上。然而,在存在数值属性和聚合的情况下,这些答案通常是没有意义的,返回的答案要么太少要么太多。我们的目标是为具有数值空值的数据库定义一个有原则的框架,并回答关于它们的算术和聚合的查询。 为了实现这个目标,我们假设数值属性中的缺失值由与标记空值相关的概率分布给出。这产生了一个概率袋式数据库的模型,其中元组不一定是独立的,因为空值可以重复。我们提供了一个通用的组合框架来回答查询,然后专注于类似于带有算术和聚合的标准SQL的查询。我们表明这些查询是可测的,并且它们的输出具有有限的表示。此外,由于经典形式的答案在数值环境中提供了很少的信息,我们研究了输出元组中数值值属于特定区间的概率。尽管精确计算是难以处理的,但我们展示了高效的近似算法来计算这样的概率值。

作者:Marco Console and Leonid Libkin and Liat Peterfreund

论文ID:2210.15395

分类:Databases

分类简称:cs.DB

提交时间:2022-11-02

PDF 下载: 英文版 中文版pdf翻译中