癌细胞系药物反应预测的跨研究分析
摘要:通过机器学习模型预测药物反应,根据肿瘤和药物特征实现个性化癌症治疗。然而,大多数算法开发工作依赖于单一研究中的交叉验证来评估模型的准确性。虽然这是一个基本的第一步,但生物数据集内的交叉验证通常会对独立测试集上的预测性能提供过于乐观的估计。为了更严格地评估模型在不同研究之间的普适性,我们使用机器学习分析了五个公开可用的基于细胞系的数据集:NCI60、CTRP、GDSC、CCLE和gCSI。基于观察到的不同研究中的实验变异性,我们探索了预测上限的估计。我们报告了各种机器学习模型的性能结果,其中多任务深度神经网络在研究间具有最好的普适性。根据多个指标,CTRP训练的模型在其余测试数据上提供了最准确的预测,而gCSI是本研究中包含的细胞系数据集中最可预测的。通过这些实验和对部分数据的进一步模拟,我们得出了两个结论:(1)细胞存活测定中的差异可以限制模型在不同研究间的普适性,(2)与肿瘤多样性相比,药物多样性对于提高临床前筛选中的模型普适性至关重要。
作者:Fangfang Xia, Jonathan Allen, Prasanna Balaprakash, Thomas Brettin, Cristina Garcia-Cardona, Austin Clyde, Judith Cohn, James Doroshow, Xiaotian Duan, Veronika Dubinkina, Yvonne Evrard, Ya Ju Fan, Jason Gans, Stewart He, Pinyi Lu, Sergei Maslov, Alexander Partin, Maulik Shukla, Eric Stahlberg, Justin M. Wozniak, Hyunseung Yoo, George Zaki, Yitan Zhu, Rick Stevens
论文ID:2104.08961
分类:Quantitative Methods
分类简称:q-bio.QM
提交时间:2021-08-17