WarpGate:云数据仓库的语义连接发现系统
摘要:数据发现是企业数据分析中的主要挑战:用户通常很难找到与他们的分析目标相关的数据,甚至在数据源中导航数据也很困难,每个数据源可能包含数千个表。一个常见的用户需求是发现与给定表可以连接的表。这个需求尤其关键,因为连接是数据分析中普遍存在的操作,而连接路径对用户来说通常是隐晦的,尤其是跨数据库的连接路径。此外,用户通常有兴趣找到“语义上”可以连接的表:具有可以转换成连接的列,即使它们在数据存储中的表示方式目前不可连接。我们提出了WarpGate,一个用于云数据仓库中数据发现的系统原型。WarpGate实现了一种基于嵌入的语义连接发现解决方案,它将列编码为高维向量空间,使得可连接的列映射到彼此相近的点。通过在几个表语料库上进行实验,我们展示了WarpGate:(i) 捕捉了表之间的语义关系,尤其是跨数据库的关系;(ii) 具有样本效率,因此可扩展到拥有数百万行的非常大的表。我们还展示了WarpGate在云数据分析企业产品中的应用。
作者:Tianji Cong and James Gale and Jason Frantz and H. V. Jagadish and c{C}au{g}atay Demiralp
论文ID:2212.14155
分类:Databases
分类简称:cs.DB
提交时间:2023-01-04