基于机器学习的蛋白质组学发现-arXiv论文预印本中文版

基于机器学习的蛋白质组学发现

摘要：无标签的蛋白质定量主要集中在肽段谱计数和离子峰高度的分析上。通过观察到的多个肽段（基因组特异性肽段），可以确定蛋白质的来源。然而，每个肽段的检测可能性受肽段的物理化学特性的严重影响，这混淆了质谱计算的结果。通过四种不同的蛋白质组学平台生成大约一百万个肽段鉴定，我们成功鉴定了超过16,000个基因组特异性肽段。我们使用机器学习分类方法来得出肽段的检测概率，以预测将被观察到的肽段数目，这可以用来准确估计蛋白质的绝对丰度。我们使用肽段数据（由CAS实验室提供）从不同方法中推导出最佳模型。我们首先使用SVM和Random Forest分类器来确定基因组特异性肽段和未被观察到的肽段，然后搜索最佳参数以获得更好的预测结果。鉴于我们模型的优秀表现，我们可以计算蛋白质丰度的绝对估计值。

作者：Biao He, Baochang Zhang and Yan Fu

论文ID：1312.1025

分类：Quantitative Methods

分类简称：q-bio.QM

提交时间：2013-12-05

PDF 下载： 英文版中文版pdf翻译中