SVM与光谱嵌入在启动子生物砖的分类和聚类中的比较

摘要:背景:在生物体的基因组中,启动子是结构基因的上游短DNA序列,其功能是控制基因的转录。启动子大致可分为两类:固定的启动子和可诱导的启动子。具有明确功能注释的启动子是实用的合成生物学生物基块。许多统计和机器学习方法已被引入以预测候选启动子的功能。光谱特征图已被证明是一种有效的聚类方法,用于分类生物基块,而支持向量机(SVM)是一种强大的机器学习算法,尤其是在数据集较小的情况下。方法:将两种算法:光谱嵌入和SVM应用于具有375个原核启动子的同一数据集。对于光谱嵌入,使用编辑距离构建拉普拉斯矩阵,随后进行K均值聚类。将序列表示为数字向量,作为SVM训练的数据集。结果:在10倍交叉验证中,SVM对于启动子的转录功能分类达到了高达93.07%的预测准确度。基于编辑距离的拉普拉斯特征图(光谱嵌入)可能不适合提取用于此任务的可区分特征。

作者:Shangjie Zou

论文ID:1902.05724

分类:Other Quantitative Biology

分类简称:q-bio.OT

提交时间:2019-02-19

PDF 下载: 英文版 中文版pdf翻译中