数据立方体:一种泛化Group-By、交叉表和小计的关系聚合运算符

摘要:多维数据分析应用通常通过聚合数据在许多维度中查找异常或不寻常的模式。SQL的聚合函数和GROUP BY 运算符产生零维或一维的聚合数据。应用程序需要这些运算符的N维泛化版本。本文定义了这个运算符,称为数据立方体或简称为立方体。立方体运算符可以泛化在大多数报表生成器中找到的直方图,交叉制表,卷起,展开和小计构造。新颖之处在于立方体是关系型的。因此,立方体运算符可以嵌入到更复杂的非过程化数据分析程序中。立方体运算符将每个聚合属性视为N维空间中的一个维度。特定属性值集合的聚合是此空间中的一个点。这些点形成一个N维立方体。通过将N维立方体聚合到较低维度的空间中,可以计算出高级聚合数据。本文(1)解释了立方体和卷起运算符,(2)展示了如何将它们与SQL结合使用,(3)解释了用户如何为立方体定义新的聚合函数,(4)讨论了计算立方体的高效技术。其中许多功能正在被添加到SQL标准中。

作者:Jim Gray, Surajit Chaudhuri, Adam Bosworth, Andrew Layman, Don Reichart, Murali Venkatrao, Frank Pellow, Hamid Pirahesh

论文ID:cs/0701155

分类:Databases

分类简称:cs.DB

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中