流数据环境下的快速贝叶斯记录链接
摘要:流式记录链接是在没有唯一标识字段的情况下,将来自多个文件的记录组合在一起,这些文件引用了重叠的实体集。文件按时间顺序逐个到达,并在每个文件到达后更新链接估计。这个问题出现在纵向调查、电子健康记录和在线事件数据库等环境中。流式记录链接的挑战在于在新数据到达时高效地更新参数估计。我们从贝叶斯的角度来解决这个问题,通过参数的后验样本来估计,并提出了在新文件到达后更新链接估计的两种方法,这些方法比使用每个新数据文件拟合联合模型更快。在本文中,我们将两个文件贝叶斯Fellegi-Sunter模型推广到多个文件情况,并提出了两种执行流式更新的方法。我们通过模拟和真实调查面板数据,研究先验分布对链接准确性的影响,以及与Gibbs抽样器相比,这些方法之间的计算权衡。我们以小部分计算时间实现了接近等效的后验推断。
作者:Ian Taylor, Andee Kaplan, Brenda Betancourt
论文ID:2307.07005
分类:Computation
分类简称:stat.CO
提交时间:2023-07-17