基于大规模真实世界数据的EHR基因表型分析的变分贝叶斯潜类方法
摘要:大规模现实世界数据应用马尔可夫链蒙特卡罗(MCMC)方法面临的计算挑战限制了贝叶斯方法在临床分析中用于患者表型定义的应用。近似贝叶斯推断通过优化变分证据下界,即变分贝叶斯(VB),已成功应用于其他领域。我们研究了目前可用的R和Python VB软件在进行变分贝叶斯潜在类别分析(LCA)的大规模现实世界观察数据时的性能和特性。我们使用了真实世界的OptumTM电子健康记录(EHR)数据集,其中包含儿科患者的第2型糖尿病风险指标,这在儿科患者中属于罕见形式。本研究旨在验证贝叶斯患者表型模型的普适性、可扩展性,并关键地验证其能够应用于现实世界的大规模临床数据集。我们发现目前可用的自动VB方法对初始条件、模型定义、算法超参数和梯度优化器的选择非常敏感。使用VB实现贝叶斯LCA模型具有一定挑战性,但与MCMC相比,我们在计算性能和结果合理性方面取得了良好的结果。
作者:Brian Buckley, Adrian O'Hagan and Marie Galligan
论文ID:2304.03733
分类:Applications
分类简称:stat.AP
提交时间:2023-04-10