通过套索主成分测试特征的显著性

摘要:高维环境中测试特征显著性的问题。特别是在微阵列实验中测试差异表达基因。我们希望找出与某种结果相关的基因,如存活时间或癌症类型。我们提出了一种新的方法,称为套索主成分(LPC),它建立在现有方法的基础上,并且可以提供显著改进。例如,在两类数据的情况下,一种标准(尽管简单)的方法可能是为每个基因计算一个两样本$t$-统计量。LPC方法涉及将这些传统基因得分投影到基因表达数据协方差矩阵的特征向量上,然后应用$L_1$惩罚以去噪得到的投影。我们提出了一个理论框架,根据该框架LPC是识别显著基因的合理选择,而且我们证明了LPC在真实数据和模拟数据上能够显著降低假阳性发现率。此外,这种灵活的方法可以应用于各种类型的数据,并且可以用来改进许多现有方法来识别显著特征。

作者:Daniela M. Witten, Robert Tibshirani

论文ID:0811.1700

分类:Applications

分类简称:stat.AP

提交时间:2008-11-12

PDF 下载: 英文版 中文版pdf翻译中