SANTOS:基于关系的语义表格联合搜索

摘要:通过元数据或基于列的指标来定义联接表搜索的现有技术(表必须具有相同或相似的模式,例如,表中的值应来自同一领域)。在本文中,我们介绍了在表格中对列对之间的语义关系进行建模以提高联接搜索准确性的方法。因此,我们引入了一种新的联接能力的概念,该概念以原则性的方式考虑了列之间的关系和列的语义。为此,我们提出了两种发现列对之间语义关系的新方法。第一种方法使用现有知识库(KB),第二种方法(我们称之为“合成的KB”)使用来自数据湖本身的知识。我们采用了现有的表联接搜索基准,并提供了代表小型和大型真实数据湖的新的(公开的)基准。我们证明了我们的新的联接能力搜索算法SANTOS优于使用各种基于列的语义,包括词嵌入和正则表达式的最新的联接搜索算法。我们通过实验证明,我们的合成KB通过表示在可用的KB中可能不包含的关系语义来提高联接搜索的准确性。这个结果暗示了从具有有限的KB覆盖率的数据湖中创建合成KB并将其用于联接搜索的有希望的未来。

作者:Aamod Khatiwada, Grace Fan, Roee Shraga, Zixuan Chen, Wolfgang Gatterbauer, Ren''ee J. Miller, Mirek Riedewald

论文ID:2209.13589

分类:Databases

分类简称:cs.DB

提交时间:2022-09-28

PDF 下载: 英文版 中文版pdf翻译中