FEDEX:数据探索步骤的可解释性框架

摘要:一个新数据集被探索时,数据科学家经常应用分析查询,在生成的数据框中寻找见解,并反复应用更多查询。在本文中,我们提出了一种新颖的解决方案,可以协助数据科学家进行这个繁重的过程。简而言之,我们的解决方案确定了每个获得的数据框中最有趣的(行的)集合。独特的是,我们对有趣的定义是基于每行对整个数据框的不同列的有趣程度的贡献,这又是使用多样性和异常性等标准度量定义的。直观地说,有趣的行是解释为什么(某一列的)分析查询结果作为一个整体是有趣的。行在其贡献上是相关的,因此一组行的有趣度可能不能直接基于个别行的有趣度计算。我们通过限制关注语义相关的集合来解决由此产生的计算挑战;基于多个语义相关性概念,这些集合作为更具信息性的解释。我们在多个真实世界数据集上的实验研究显示了我们系统在各种场景中的实用性。

作者:Daniel Deutch, Amir Gilad, Tova Milo, Amit Mualem, Amit Somech

论文ID:2209.06260

分类:Databases

分类简称:cs.DB

提交时间:2022-09-15

PDF 下载: 英文版 中文版pdf翻译中