埃里斯:测量多维数据源之间的不一致性

摘要:数据集成是数据库中的一个经典问题,通常被分解为模式匹配、实体匹配和数据融合。为了解决后者,通常假设可以确定事实真相。然而,通常情况下,不同源头中的数据收集过程是不完美的,无法提供准确的值合并。因此,在无法确定真相的情况下,至少需要量化数据集的内部一致性程度。因此,我们提出了相符数据的定义,并定义了不一致度度量作为一种衡量分歧的方式,以提高基于可信度的决策制定能力。 我们定义了数值属性的分歧度量问题,其中给定一组不确定的原始观测或聚合结果(如与COVID-19相关的病例/住院/死亡数据)以及关于相同现实的不同概念化的对齐信息(例如,粒度或单位),我们希望评估不同来源是否相符,如果不相符,则使用分歧度量来量化它们的不一致程度。我们还定义了一组代数运算符,用于描述不同数据源的正确性保证下的对齐,以及两种可将问题归约为线性或二次规划问题的替代关系数据库实现。这些方法在COVID-19和合成数据上进行了评估,实验结果表明,在现实情况下可以高效地进行分歧度量。

作者:Alberto Abello and James Cheney

论文ID:2201.13302

分类:Databases

分类简称:cs.DB

提交时间:2023-08-21

PDF 下载: 英文版 中文版pdf翻译中