Sprintz:物联网时间序列压缩

摘要:传感器生成的时间序列数据由于连接设备的迅速增加而成为世界数据的一个重要且不断增长的部分。通常,这些数据从资源受限的分布式设备收集,并集中存储在一个或多个服务器上。这种设置中的一个关键挑战是在不损失数据质量的情况下减小传输数据的大小。较低的质量会减少数据的实用性,但较小的大小可以同时减少服务器的网络和存储成本以及传感设备的功耗。一个自然的解决方案是在传感设备上对数据进行压缩。不幸的是,现有的压缩算法要么违反这些设备的存储和延迟约束,要么如我们在实验证明的那样,在传感器生成的时间序列上表现不佳。我们引入了一种时间序列压缩算法,该算法实现了最先进的压缩比,同时只需不到1KB的内存,并且几乎不会增加延迟。该方法不仅适用于采集数据的低功耗设备,还适用于存储和查询数据的服务器;在后一种情况下,它可以以单线程每秒超过3GB的速度进行解压缩,甚至比很多具有更低压缩比的算法更快。我们方法的一个关键组成部分是一个高速预测算法,可以在线训练,并在性能上明显优于诸如增量编码等其他替代方法。对来自许多领域的数据集进行了大量实验证明,这些结果不仅适用于传感器数据,还适用于各种其他时间序列数据。

作者:Davis Blalock, Samuel Madden, John Guttag

论文ID:1808.02515

分类:Performance

分类简称:cs.PF

提交时间:2018-08-09

PDF 下载: 英文版 中文版pdf翻译中