使用加权汉明距离的常数序列扩展快速搜索

摘要:使用紧凑的二进制编码来表示视觉数据越来越受到关注,因为二进制编码可以直接用作哈希表的索引,以实现快速的非穷举搜索。最近的方法表明,通过为每个位生成查询自适应权重,使用加权汉明距离(WHD)而不是汉明距离(HD)对二进制编码进行排序可以更好地检索与查询相关的项。然而,使用WHD进行搜索比使用HD慢。一个主要的挑战是,使用WHD在哈希表中扩展一个单调递增序列以探测存储桶的复杂度至少与序列长度的平方成比例,而使用HD则与序列长度成比例。为了克服这个挑战,我们提出了一种使用WHD的新型快速非穷举搜索方法。关键思想是设计一个恒定的序列扩展算法,以在恒定计算复杂度下执行每个序列扩展,并且总的复杂度与序列长度成比例,这通过理论分析进行了证实。实验结果表明,我们的方法比其他基于WHD的搜索方法更快。此外,与基于HD的非穷举搜索方法相比,我们的方法具有可比较的效率,但可以检索多达十亿个项的数据集中更多与查询相关的项。

作者:Zhenyu Weng, Huiping Zhuang, Haizhou Li, Zhiping Lin

论文ID:2306.03612

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-06-07

PDF 下载: 英文版 中文版pdf翻译中