KOIOS:前k个语义重叠集搜索

摘要:使用语义重叠,我们研究了基于top-k集合相似度搜索问题。传统的重叠要求集合元素之间的完全匹配,而语义重叠允许语法上不同但语义相关的元素增加重叠度。语义重叠是一个二分图的最大匹配分数,其中两个集合元素之间的边权重由用户定义的相似性函数(如嵌入之间的余弦相似度)来定义。传统的技术(如令牌索引)在语义搜索中失败,因为相似元素在字符级别上可能是不相关的。此外,验证候选项是昂贵的(语法重叠的时间复杂度是线性的,而语义重叠是立方的),因此需要高度选择性的过滤器。我们提出了KOIOS,这是第一个用于语义重叠搜索的精确高效算法。KOIOS利用复杂的过滤器来最小化所需的图匹配计算次数。我们的实验结果显示,在中等到大型数据集中,不到5%的候选集需要进行验证,而其中超过一半的集合在不需要昂贵的图匹配的情况下进一步被剪枝。我们在四个真实数据集上展示了算法的效率,并证明了与传统集合相似度搜索相比,语义重叠的搜索结果质量得到了提高。

作者:Pranay Mundra, Jianhao Zhang, Fatemeh Nargesian, Nikolaus Augsten

论文ID:2304.10572

分类:Databases

分类简称:cs.DB

提交时间:2023-04-24

PDF 下载: 英文版 中文版pdf翻译中