相对误差流式分位数

摘要:估计流数据中的排名、分位数和分布是数据分析和监控中的核心任务。给定一串具有总序的数据宇宙中的$n$个项,任务是计算一个在$n$中的多对数尺寸的草图(数据结构)。给定草图和查询项$y$,应该能够近似计算其在流中的排名,即小于或等于$y$的流元素的数量。迄今为止,大多数工作都集中在加法$εn$误差逼近上,最终导致了实现了最佳渐近行为的KLL草图。本文研究了乘法$(1±ε)$误差逼近排名。多样化的误差逼近是由于对分布尾部的需求而产生的实际动机,因此对于在极值附近更准确的草图。 由于先前的工作,最节省空间的算法存储了$O(log(ε^2 n)/ε^2)$或$O(log^3(εn)/ε)$个宇宙项。我们提出了一个随机草图,存储了$O(log^{1.5}(ε n)/ε)$个项,可以高概率近似地$(1±ε)$逼近每个宇宙项的排名;这个空间限度在最佳估计的$O(sqrt{log(εn)})$因子范围内。我们的算法不需要先前对流长度的了解,并且是完全可合并的,因此适用于并行和分布式计算环境。

作者:Graham Cormode and Zohar Karnin and Edo Liberty and Justin Thaler and Pavel Vesel''y

论文ID:2004.01668

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-08-25

PDF 下载: 英文版 中文版pdf翻译中