事实表的排序和位图索引压缩,以字对齐方式
摘要:基于位图的索引经常用于索引多维数据。它们主要依赖于顺序的输入/输出。位图可以通过压缩来减少输入/输出的成本和最小化CPU的使用。最高效的压缩技术基于游程编码(RLE),如Word-Aligned Hybrid(WAH)压缩。这种类型的压缩加速位图上的逻辑操作(AND、OR)。然而,游程编码对事实的顺序敏感。因此,我们提出对事实表进行排序。我们将回顾按字典排序、格雷码排序和分块排序。我们发现,字典排序改善了压缩效果--有时生成的索引可以缩小一倍--并且使索引速度提高数倍。虽然排序需要时间,但这部分可以抵消将排序表索引化更快的事实。列的顺序是重要的:通常最好将具有更多不同值的列放在前面。分块排序远不如完全排序高效。此外,我们发现当使用字对齐压缩时,格雷码排序并不比字典排序更好。
作者:Kamel Aouiche, Daniel Lemire, Owen Kaser
论文ID:0805.3339
分类:Databases
分类简称:cs.DB
提交时间:2008-08-15