基于机器学习的蛋白质组学发现

摘要:无标签的蛋白质定量主要集中在肽段谱计数和离子峰高度的分析上。通过观察到的多个肽段(基因组特异性肽段),可以确定蛋白质的来源。然而,每个肽段的检测可能性受肽段的物理化学特性的严重影响,这混淆了质谱计算的结果。通过四种不同的蛋白质组学平台生成大约一百万个肽段鉴定,我们成功鉴定了超过16,000个基因组特异性肽段。我们使用机器学习分类方法来得出肽段的检测概率,以预测将被观察到的肽段数目,这可以用来准确估计蛋白质的绝对丰度。我们使用肽段数据(由CAS实验室提供)从不同方法中推导出最佳模型。我们首先使用SVM和Random Forest分类器来确定基因组特异性肽段和未被观察到的肽段,然后搜索最佳参数以获得更好的预测结果。鉴于我们模型的优秀表现,我们可以计算蛋白质丰度的绝对估计值。

作者:Biao He, Baochang Zhang and Yan Fu

论文ID:1312.1025

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2013-12-05

PDF 下载: 英文版 中文版pdf翻译中