色彩$k$最近邻查询
摘要:彩色点$P$是一个包含$n$个点的集合。我们开发了有效的数据结构来存储$P$,并且可以回答色彩$K$最近邻($K$-NN)查询。这样的查询包括一个查询点$q$和一个数$k$,并且询问在最靠近$q$的$k$个点中最常出现的颜色是什么。高效地回答这样的查询是获得快速的$K$-NN分类器的关键。我们的主要目标是获得查询时间与$k$无关,同时使用近线性空间。我们展示了通过组合两种数据结构可以实现这一点。第一个数据结构允许我们计算包含查询点$q$的$k$-最近邻的区域,而第二个数据结构可以报告这样一个区域中出现最频繁的颜色。这导致了线性空间的数据结构,对于$mathbb{R}^1$中的点,查询时间为$O(n^{1/2} log n)$,对于$mathbb{R}^2$中的点,查询时间在$O(n^{2/3}log^{2/3} n)$和$O(n^{5/6} {\ m polylog} n)$之间变化,取决于所使用的距离度量。由于这些查询时间仍然相当大,我们也考虑了近似。如果我们允许报告一个至少出现$(1-\varepsilon)f^*$次的颜色,其中$f^*$是最频繁颜色的频率,我们可以在$mathbb{R}^1$中获得一个查询时间为$O(log n + loglog\_{frac{1}{1-varepsilon}} n)$,在$mathbb{R}^2$中使用近线性空间,预期查询时间在$ ilde{O}(n^{1/2}\varepsilon^{-3/2})$和$ ilde{O}(n^{1/2}\varepsilon^{-5/2})$之间变化(忽略对数因子)。
作者:Thijs van der Horst, Maarten L"offler, Frank Staals
论文ID:2205.00277
分类:Computational Geometry
分类简称:cs.CG
提交时间:2022-05-03