基因排序与相关性下的生物标志物发现
摘要:基因标记的发现和基因排序是基因组高通量分析中的一个标准任务。通常,标记的排序基于t-score的稳定变体,如修正的t或SAM统计量。然而,这些过程忽略了基因间的相关性,这可能对基因排序和随后的测试的功效产生深远影响。 我们提出了一种简单的方法,调整基因的t统计量以考虑基因之间的相关性。得到的经过相关性调整的t-score(“cat”分数)是基于预测的角度衍生出来的,即作为区分两个类别线性判别分析中的变量选择的得分。在没有相关性的情况下,cat分数会变为标准的t-score。此外,使用cat分数可以轻松评估特征组(即基因集)。对于从小样本数据计算cat分数,我们提出了一种收缩过程。在包括六种不同的合成和经验相关结构的比较研究中,我们展示了cat分数改善了基因排序的估计,并提高了固定真实发现率的功效,反之亦然。最后,我们还通过分析代谢组数据来说明cat分数。缩减的cat分数已经在R软件包“st”中实现,可从URL http://cran.r-project.org/web/packages/st/ 下载。
作者:Verena Zuber and Korbinian Strimmer
论文ID:0902.0751
分类:Applications
分类简称:stat.AP
提交时间:2009-10-09