ssROC:用于可靠和简化表型算法评估的半监督ROC分析

摘要:高通量表型研究将加速电子医疗记录在转化研究中的应用。其中一个关键障碍是需要大量的医学监督来估计和评估表型算法(PA)。为应对这个挑战,已经提出了许多弱监督学习方法。然而,目前缺乏一种方法可以在只有非常少部分数据标记时可靠地评估PAs的预测性能。为填补这一空白,我们引入了一种半监督方法(ssROC)来估计PAs的接收器操作特征(ROC)参数(如敏感性、特异性)。 ssROC利用一个小的标记数据集来非参数地填补缺失标签。然后使用这些填补值来估计ROC参数,从而相对于只使用有标记数据的经典监督ROC分析(supROC)获得更精确的PA性能估计。 我们通过深入的模拟研究和对Mass General Brigham的六个PA进行广泛评估来评估ssROC。 在模拟和真实数据中,ssROC相对于固定数量的有标记数据而言,产生了具有显著较低方差的ROC参数估计。对于这六个PA,ssROC的估计平均比supROC的估计低约40\%。 ssROC能够在不需要大量有标记数据的情况下实现PA性能的精确评估。ssROC还可以轻松地在开源R软件中实现。 与弱监督PA一起使用时,ssROC有助于实现基于电子医疗记录的可靠且简化的表型划分,这是必要的。

作者:Jianhui Gao, Clara-Lea Bonzel, Chuan Hong, Paul Varghese, Karim Zakir, and Jessica Gronsbell

论文ID:2305.01709

分类:Applications

分类简称:stat.AP

提交时间:2023-07-19

PDF 下载: 英文版 中文版pdf翻译中