Frost:一个用于基准测试和探索数据匹配结果的平台

摘要:公司中有88%直接受到“糟糕”的数据的影响,平均每个公司因此损失12%的收入。重复数据-同一个真实世界实体的多个但不同表示-是数据质量不佳的主要原因之一,因此找到并配置正确的数据去重解决方案至关重要。现有的数据匹配基准关注匹配结果的质量,忽略其他重要因素,如业务需求。此外,它们通常不支持对数据匹配结果的探索。为了弥补仅仅计算记录对数与全面评估数据匹配解决方案之间的差距,我们提出了Frost平台。它结合了现有的基准、已建立的质量指标、成本和工作量指标以及探索技术,使其成为首个允许系统探索以了解匹配结果的平台。Frost已在开源应用Snowman中实施并发布,其中包括对匹配结果进行视觉探索的功能。

作者:Martin Graf, Lukas Laskowski, Florian Papsdorf, Florian Sold, Roland Gremmelspacher, Felix Naumann, Fabian Panse

论文ID:2107.10590

分类:Databases

分类简称:cs.DB

提交时间:2022-09-07

PDF 下载: 英文版 中文版pdf翻译中