如何减少实体解析的搜索空间:使用阻塞或最近邻搜索?

摘要:实体消解的时间复杂度是二次的。为提高时间效率,通常使用三种过滤技术来限制其搜索空间:(i)块工作流,将具有相同或相似标识的实体配置在一起,(ii)字符串相似度连接算法,快速检测超过阈值的相似实体,和(iii)最近邻方法,将每个实体配置转换为向量,并快速根据指定的距离函数检测最近的实体。各种方法已提出用于每一类型,但文献缺乏对它们相对性能的比较分析。正如我们在这项工作中展示的那样,这是一个非平凡的任务,因为配置参数对每种过滤技术的性能有重要影响。我们进行了第一个系统的实验研究,调查了每种类型的主要方法在10个真实数据集上的相对性能。对于每种方法,我们考虑了大量的参数配置,并从召回率和精确度方面进行了优化。对于每个数据集,我们考虑了无模式和基于模式的设定。实验结果为考虑的技术的有效性和时间效率提供了新的见解,证明了块工作流和字符串相似度连接的优越性。

作者:George Papadakis, Marco Fisichella, Franziska Schoger, George Mandilaras, Nikolaus Augsten, Wolfgang Nejdl

论文ID:2202.12521

分类:Databases

分类简称:cs.DB

提交时间:2022-10-07

PDF 下载: 英文版 中文版pdf翻译中