自我监督下的电子健康档案中的预测,无注意力模型的SANSformers
摘要:应用Transformer神经网络于电子健康记录(EHR)是具有挑战性的,因为EHR数据具有独特的多维时序结构,往往与简单的线性模型相比性能较差。因此,Transformer的优势,如高效的迁移学习和可扩展性的改进,在EHR应用中没有得到充分利用。为了克服这些挑战,我们引入了SANSformer,一种新颖的无注意力顺序模型,专门设计了归纳偏好,以适应EHR数据的独特特征。 我们的主要应用领域是预测未来的医疗利用,这是有效分配医疗资源的关键任务。当处理不同患者亚群时,这个任务变得特别困难。这些亚群,特点是独特的健康轨迹,并且通常规模较小,例如患有罕见疾病的患者,需要特殊的建模方法。为了解决这个问题,我们采用了一种自监督的预训练策略,称为生成性摘要预训练(GSP)。GSP根据患者过去的健康记录预测未来窗口的摘要统计数据,从而显示出处理EHR数据的噪音和复杂性的潜力。我们在包含近一百万患者的全面健康登记处进行了预训练,然后针对特定的亚群预测任务进行了微调。 在我们的评估中,SANSformer始终优于强基准EHR。重要的是,我们的GSP预训练方法极大地提高了模型的性能,尤其对于规模较小的患者亚群。我们的研究结果强调了特定的无注意力模型和自监督预训练在增强不同患者群体的医疗利用预测方面的巨大潜力。
作者:Yogesh Kumar, Alexander Ilin, Henri Salo, Sangita Kulathinal, Maarit K. Leinonen, Pekka Marttinen
论文ID:2108.13672
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-10