测量和预测数据探索中的连接质量
摘要:在大规模发现可连接数据集的问题上,我们从学习的角度以profile为基础进行研究。这些profile是简洁的表示,捕捉了数据集的schema和数据值的基本特征,可以以分布式和并行的方式高效提取。然后,通过比较profile来预测不同数据集的属性之间join操作的质量。与现有技术不同的是,我们定义了一种新的join质量概念,它考虑了join候选属性之间的包含关系和基数比例。我们在一个名为NextiaJD的系统中实现了我们的方法,并进行了实验证明了我们方法的预测性能和计算效率。实验结果表明,与基于哈希的方法相比,NextiaJD取得了更好的预测性能,并且我们能够扩展到更大规模的数据。
作者:Sergi Nadal, Raquel Panadero, Javier Flores, Oscar Romero
论文ID:2305.19629
分类:Databases
分类简称:cs.DB
提交时间:2023-06-01