基于擦除的流式浮点数时间序列无损压缩方法

摘要:浮点时间序列数据的数量庞大,生成速度前所未有地高。对于时间序列数据的高效、紧凑和无损压缩对于各种场景非常重要。现有的大多数无损浮点压缩方法都是基于XOR操作,但它们没有充分利用尾部的零,通常导致压缩比不尽人意。本文提出了一种基于擦除的无损浮点压缩算法,即Elf算法。Elf的主要思想是擦除浮点值的最后几位(将它们设为零),因此XOR值应该包含很多尾部零。擦除方法面临的挑战有三个。首先,如何快速确定被擦除的位?其次,如何从被擦除的数据中无损恢复原始数据?第三,如何对被擦除的数据进行紧凑编码?通过严格的数学分析,Elf可以直接确定被擦除的位,并在不丢失任何精度的情况下恢复原始值。为了进一步提高压缩比,我们提出了一种新颖的编码策略,用于具有尾部零的XOR值。此外,观察到时间序列中的值通常具有相似的尾数计数,我们通过优化尾数计数编码策略提出了Elf的升级版Elf+,它提高了压缩比并进一步减少了运行时间。Elf和Elf+都以流式方式工作。它们在时间上只需O(N)(其中N是时间序列的长度),在空间上只需O(1),并且具有显著的压缩比,并提供理论保证。使用22个数据集进行的广泛实验显示,与9个先进竞争者相比,Elf和Elf+在双精度和单精度浮点值方面表现出强大的性能。

作者:Ruiyuan Li, Zheng Li, Yi Wu, Chao Chen, Songtao Guo, Ming Zhang, Yu Zheng

论文ID:2306.16053

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-06-29

PDF 下载: 英文版 中文版pdf翻译中