多数据库的轻松交叉验证下的紧急护理研究的提取管线（METRE）-arXiv论文预印本中文版

多数据库的轻松交叉验证下的紧急护理研究的提取管线（METRE）

摘要：将原始的电子健康记录（EHR）数据转化为机器学习模型的输入需要相当大的努力。一个广泛使用的EHR数据库是Medical Information Mart for Intensive Care（MIMIC）。之前对MIMIC-III的研究无法查询更新并改进的MIMIC-IV版本。此外，需要使用多中心数据集进一步突显出EHR数据提取的挑战。因此，我们开发了一个提取管道，可以在MIMIC-IV和eICU Collaborative Research Database上工作，并允许使用这两个数据库进行模型交叉验证。在默认选择下，该管道分别提取了38766和126448条MIMIC-IV和eICU的重症监护室记录。使用提取的时间相关变量，我们与之前在临床相关任务（如住院死亡预测）方面的工作的面积下曲线（AUC）性能进行了比较。METRE在所有任务中实现了相当的性能，AUC为0.723-0.888。此外，当我们使用在eICU上训练的模型直接在MIMIC-IV数据上评估模型时，我们观察到AUC的变化可能仅为+0.019或-0.015。我们的开源管道将MIMIC-IV和eICU转换成结构化的数据框，并允许研究人员使用来自不同机构收集的数据进行模型训练和测试，这对于在临床环境中部署模型至关重要。

作者：Wei Liao, Joel Voldman

论文ID：2302.13402

分类：Databases

分类简称：cs.DB

提交时间：2023-06-01

PDF 下载： 英文版中文版pdf翻译中