在不确定数据上对某些和可能的答案进行排名和窗口查询的高效近似(扩展版)

摘要:对于不确定性的来源自然地存在于许多应用领域中,例如,数据输入错误和数据清洗中的歧义。不完整和概率数据库中的先前工作已经研究了在不确定数据上对排名和前k个查询的语义和高效评估。然而,大多数方法只处理排名和前k个查询,并且使用不同的不兼容数据模型来表示不确定的输入数据和查询结果。我们提出了一种有效的方法来向下和向上估计不确定数据上的排名、前k个查询和窗口查询的结果。我们的方法与现有的查询不确定数据的技术很好地结合,效率高,并且据我们所知,它是第一个支持窗口聚合的方法。我们设计了不确定排序和窗口聚合的物理操作符的算法,并在PostgreSQL中实现它们。我们在合成和真实世界的数据集上评估了我们的方法,证明它优于所有竞争对手,并且通常产生更准确的结果。

作者:Su Feng, Boris Glavic, Oliver Kennedy

论文ID:2302.08676

分类:Databases

分类简称:cs.DB

提交时间:2023-05-04

PDF 下载: 英文版 中文版pdf翻译中