基于DNA甲基化450K数据的癌症组织来源分类的一种新的简约方法

摘要:DNA甲基化是一种已被广泛研究的遗传修饰,它调节了真核生物的基因转录。已经认识到其变化是癌症发展的重要组成部分。在本研究中,我们使用来自癌症基因组图谱的DNA甲基化450k数据,评估了DNA甲基化数据在30种癌症类型的癌症分类中的有效性。我们提出了一种新的高维数据(超过450,000个)基因选择方法。首先引入了方差过滤进行维度缩减,然后使用递归特征消除(RFE)进行特征选择。我们解决了从大量甲基化位点中选择少量基因的问题,并证明了我们的简约模型是高效的,准确率超过91\%,优于使用DNA微阵列和RNA-seq数据的其他研究。比较了基于4个评估器(随机森林、决策树、额外树和支持向量机)和5个分类器(k最近邻、支持向量机、XGboost、Light GBM和多层感知器)的20种模型的性能,并检查了RFE算法的稳健性。结果表明,额外树加上catboost分类器的组合模型在癌症识别中表现最佳,对于20、30、40和50个特征,整体验证准确率分别为91\%、92.3\%、93.3\%和93.5\%。还通过富集分析探索了50个选定基因在癌症发展中的生物学功能,结果显示我们的前16个特征中有12个已经被确认与癌症特异性相关,我们还提出了一些供未来研究测试的基因。因此,我们的方法可以作为辅助诊断方法,确定特定癌症的实际临床病理状态。

作者:Shen Jia, Yulin Zhang, Yiming Mao, Jiawei Gao, Yixuan Chen, Yuxuan Jiang, Haochen Luo, Kebo Lv, Jionglong Su

论文ID:2101.00570

分类:Tissues and Organs

分类简称:q-bio.TO

提交时间:2021-01-05

PDF 下载: 英文版 中文版pdf翻译中