流式稀疏向量的最大内积搜索的近似算法

摘要:稀疏向量中的最大内积搜索或top-k检索在信息检索中被很好地理解,并有一些成熟的算法可以精确解决。然而,所有现有算法都是针对文本和基于频率的相似性度量来设计的。为了实现最佳的内存占用和查询延迟,它们依赖于文档的近稳定性以及自然语言的规律。相比之下,我们考虑的是一个流式传输集合的设置,需要动态索引,并且索引和检索必须能够处理任意分布的实值向量。正如我们所展示的,即使与朴素的解决方案相比,现有算法在这个设置中也不再具有竞争力。我们对这个差距进行了研究,并提出了一种新的近似解决方案,称为Sinnamon,可以高效地检索从任意分布中抽取的稀疏实值向量的top-k结果。值得注意的是,Sinnamon提供了可以权衡内存占用、延迟和准确性的参数,使算法适用于受限制的应用和系统。我们给出了算法近似性引入的误差的理论结果,并在两个硬件平台和合成和实值数据集上对其性能进行了实证评估。最后,我们提出了关于稀疏向量上的通用top-k检索问题的未来研究方向。

作者:Sebastian Bruch and Franco Maria Nardini and Amir Ingber and Edo Liberty

论文ID:2301.10622

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-07-19

PDF 下载: 英文版 中文版pdf翻译中