RNA特征在预-miRNA识别中的判别能力

摘要:计算发现microRNAs(miRNA)基于miRNA前体(pre-miRNA)预先确定的特征集。目前用于pre-miRNA识别的特征集在结构和维度上存在差异。有些特征集由在pre-miRNAs中常见的序列-结构模式组成,而其他特征集则是更复杂的RNA特征的组合。尽管使用的特征集及其计算成本差别很大,但目前的工具实现了类似的预测性能。在本研究中,我们分析了在六种pre-miRNA预测工具中使用的七个特征集的判别能力。该分析基于使用这些特征集进行训练算法的分类性能。我们还通过F-score和随机森林诱导中的特征重要性来评估特征区分能力。比起仅由序列-结构模式组成的特征集,更多样化的特征集产生的分类器具有显着更高的分类性能。然而,使用具有特征多样性的集合诱导的分类器的分类性能的估计之间存在较小或不显著的差异,尽管它们的维度存在巨大差异。基于这些结果,我们应用了特征选择方法来减少计算特征集的计算成本,同时保持判别能力。我们得到了一个低维特征集,其灵敏度为90\%,特异性为95\%。我们的特征集的灵敏度和特异性与任何特征集获得的最大值相差不到0.1\%,但计算速度快了34倍。与文献中计算成本最低的特征集相比,其计算速度快了34倍,并且两者的分类性能在0.1\%的最大值范围内。

作者:Ivani de O. N. Lopes, Alexander Schliep, and Andr''e P. L. F. de Carvalho

论文ID:1312.5778

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2014-03-19

PDF 下载: 英文版 中文版pdf翻译中