通过溢出支持大数据上的聚合分析窗口函数

摘要:分析函数,也称为窗口函数,用于查询数据在滑动窗口上的聚合。例如,在在线股票平台上的简单查询是返回过去三天股票的平均价格。这些函数是SQL数据库中常用的特性。它们在大多数商业数据库中得到支持。随着云数据基础设施和机器学习技术的日益使用,使用分析窗口函数的查询频率也增加了。一些分析函数只需要常数空间存储状态,比如SUM、AVG,而其他一些需要线性空间,比如MIN、MAX。当窗口非常大时,存储状态所需的内存空间可能过大。在这种情况下,我们需要将状态溢出到磁盘上,这是一项繁重的操作。本文提出了一种算法,用于处理磁盘上的状态数据,以减少磁盘I/O操作并提高溢出的可用性和效率。我们通过不同的数据分布分析算法的复杂性。

作者:Xing Shi and Chao Wang

论文ID:2007.10385

分类:Databases

分类简称:cs.DB

提交时间:2023-03-07

PDF 下载: 英文版 中文版pdf翻译中