随机森林中的变量选择:基因表达数据应用
摘要:随机森林是一种非常适合微阵列数据的分类算法:即使大部分预测变量是噪声,它都能表现出优异的性能;在变量数量远大于观测数量的情况下也能使用,并且能返回变量重要性的度量。因此,了解随机森林在微阵列数据中的性能以及其在基因选择中的应用非常重要。本研究首先展示了随机森林参数变化对预测误差的影响。然后,我们提出了一种基于变量重要性和误差率的基因选择方法,针对的是选择较小的基因集合。通过使用模拟和真实的微阵列数据,我们展示了该基因选择过程在保持预测准确性的同时产生了较小的基因集合。代码可作为R语言包varSelRF在CRAN网站(http://cran.r-project.org/src/contrib/PACKAGES.html)或附加材料页面上获取。附加信息见:http://ligarto.org/rdiaz/Papers/rfVS/randomForestVarSel.html。
作者:Ramon Diaz-Uriarte, Sara Alvarez de Andres
论文ID:q-bio/0503025
分类:Quantitative Methods
分类简称:q-bio.QM
提交时间:2007-05-23