高级布隆过滤器算法在流数据的高效近似数据去重中的应用
摘要:大规模数据管理和处理是许多应用的必要条件,包括电信通话数据记录、网页、在线交易、医疗记录、股市、气候警报系统等。在这些数据源中,对于流式场景中的重复数据的近似识别和消除是一个更大的挑战,因为数据的到达是实时的。Stable Bloom Filters (SBF)在一定程度上解决了这个问题。 在这项工作中,我们提出了几种用于数据流中近似重复检测问题的新算法。我们提出了基于蓄水池抽样和Bloom Filters工作原理的Reservoir Sampling based Bloom Filter (RSBF)。我们还根据偏倚抽样的概念提出了新的Biased Sampling based Bloom Filter (BSBF)的变种。我们还提出了一种随机负载平衡的抽样Bloom Filter方法来有效地处理重复检测问题。通过详细的理论分析,我们证明了所提出结构的误报率、漏报率和收敛速度的分析界限。我们展示了我们的模型明显优于现有方法。我们还使用实际数据集(300万条记录)和合成数据集(10亿条记录)进行了实证分析,捕捉了各种输入分布。
作者:Suman K. Bera, Sourav Dutta, Ankur Narang and Souvik Bhattacherjee
论文ID:1212.3964
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-12-18