数据湖:功能和系统的调查
摘要:数据湖在大数据管理和数据分析中正变得越来越普遍。与数据仓库等传统的“写入时模式”方法相比,数据湖是存储原始数据,并提供公共访问接口的仓库。尽管学术界和工业界都对数据湖表现出了极大的兴趣,但对于数据湖的定义、功能和可用技术仍存在着许多模糊不清的问题。对数据湖的挑战和解决方案缺乏一个完整、一致的画面。本调查回顾了数据湖的发展、架构和系统。我们全面概述了设计和构建数据湖的研究问题。我们根据数据湖提供的功能对现有的方法和系统进行分类,使得本调查成为设计、实施和部署数据湖的有用技术参考。我们希望通过对现有解决方案的全面比较和对开放性研究挑战的讨论,本调查将推动未来数据湖研究和应用的发展。
作者:Rihan Hai, Christos Koutras, Christoph Quix, Matthias Jarke
论文ID:2106.09592
分类:Databases
分类简称:cs.DB
提交时间:2023-02-20