大规模IP地址数据统计的高效算法

摘要:大规模IP地址数据统计是网络流量测量的基本任务。统计结果用于评估用户行为对网络流量的潜在影响。这需要能够在时间和内存限制内存储和检索大量IP地址的算法。本文提出了两种有效的算法,用于收集大规模IP地址的统计数据,平衡时间效率和内存消耗。所提出的解决方案在构建哈希函数时考虑了IP地址统计的稀疏性,并在分层内存块之间保持动态平衡。第一种提出的方法有两个层次,每个层次都包含有限数量的内存块。每个内存块包含64位系统的256个大小为256乘8字节的元素。与内置的哈希映射函数相比,所提出的解决方案完全避免了昂贵的哈希碰撞,同时保留了基于哈希的解决方案的线性时间复杂度。此外,该机制根据IP地址范围动态确定哈希索引长度,并可以平衡时间和内存限制。此外,我们提出了一种高效的并行方案来加速统计数据的收集。在几个合成数据集上的实验结果表明,所提出的方法在时间和内存空间效率方面明显优于基准方法。

作者:Jie Chen, Hua Mao

论文ID:2108.04000

分类:Computational Complexity

分类简称:cs.CC

提交时间:2021-08-10

PDF 下载: 英文版 中文版pdf翻译中