多数据库的轻松交叉验证下的紧急护理研究的提取管线(METRE)

摘要:将原始的电子健康记录(EHR)数据转化为机器学习模型的输入需要相当大的努力。一个广泛使用的EHR数据库是Medical Information Mart for Intensive Care(MIMIC)。之前对MIMIC-III的研究无法查询更新并改进的MIMIC-IV版本。此外,需要使用多中心数据集进一步突显出EHR数据提取的挑战。因此,我们开发了一个提取管道,可以在MIMIC-IV和eICU Collaborative Research Database上工作,并允许使用这两个数据库进行模型交叉验证。在默认选择下,该管道分别提取了38766和126448条MIMIC-IV和eICU的重症监护室记录。使用提取的时间相关变量,我们与之前在临床相关任务(如住院死亡预测)方面的工作的面积下曲线(AUC)性能进行了比较。METRE在所有任务中实现了相当的性能,AUC为0.723-0.888。此外,当我们使用在eICU上训练的模型直接在MIMIC-IV数据上评估模型时,我们观察到AUC的变化可能仅为+0.019或-0.015。我们的开源管道将MIMIC-IV和eICU转换成结构化的数据框,并允许研究人员使用来自不同机构收集的数据进行模型训练和测试,这对于在临床环境中部署模型至关重要。

作者:Wei Liao, Joel Voldman

论文ID:2302.13402

分类:Databases

分类简称:cs.DB

提交时间:2023-06-01

PDF 下载: 英文版 中文版pdf翻译中