自动构建BI模型:利用本地连接预测和全局架构图
摘要:自动商业智能(BI)在现代企业和亿万美元业务中至关重要。传统上,像数据库管理员这样的技术专家会在非技术性的商业用户使用终端用户仪表板工具运行分析之前,手动准备BI模型(例如,星型或雪花模式)来连接数据仓库中的表格。然而,近年来自助式BI(例如Tableau和Power-BI)的流行导致非技术性的终端用户需要自行构建BI模型。 我们开发了一个自动BI系统,可以根据一组输入表格准确预测BI模型,使用一种被我们提出的称为k-Min-Cost-Arborescence (k-MCA)的基于图的优化问题,它综合考虑了本地连接预测和全局架构图结构,利用了一种称为arborescence的图论结构。虽然我们证明了k-MCA在一般情况下是不可解和不可近似的,但我们开发了新的算法,可以优化解决k-MCA问题,这在实践中显示出高效的子秒延迟,并且能够扩展到我们遇到的最大BI模型(接近100个表格)。 自动BI在一个独特的数据集上进行了严格评估,该数据集包含超过100,000个真实的BI模型,同时还在4个流行的TPC基准测试上进行了评估。结果表明,自动BI既高效又准确,在真实和合成基准测试中均达到了超过0.9的F1分数。
作者:Yiming Lin, Yeye He, Surajit Chaudhuri
论文ID:2306.12515
分类:Databases
分类简称:cs.DB
提交时间:2023-06-23