评估、可视化和改进合成数据的效用
摘要:R中的合成流行套件https://www.synthpop.org.uk 为数据管理员提供工具,使他们能够创建机密微数据的合成版本,并可以以比原始数据更少的限制进行分发。合成可以定制,以确保在合成数据中复制出现在实际数据中的关系。已经提出了一些用于评估合成数据效用的措施,通常被称为合成数据的实用性。我们表明,所有这些措施,包括从制表中计算的措施,都可以从概率分数模型中导出。这些措施将被审查和比较,并展示它们之间的关系。所有比较的措施都高度相关,其中一些被证明是相同的。定义概率分数模型的方法比选择措施更重要。这些措施和方法被纳入了合成流行套件中的实用模块,其中包括可视化结果的方法,从而为创建合成数据的人提供即时反馈,以改善其质量。这些实用函数最初设计用于用pkg{synthpop}函数syn()或syn.strata()创建的类code{synds}的合成数据对象,但现在它们也可以用于将一个或多个合成数据集与原始记录进行比较,其中记录是R数据帧或数据帧列表。
作者:Gillian M Raab, Beata Nowok, Chris Dibben
论文ID:2109.12717
分类:Computation
分类简称:stat.CO
提交时间:2021-11-16