权重总和分布函数实现稳健准确的数据丰富统计
摘要:术语富集分析促进了通过为实验/计算所得数据分配与受控词汇中的术语相关的注释,从而实现了生物解释。该过程通常涉及为每个词汇术语获得统计显著性,并使用最显著的术语来描述给定的一组生物实体,通常与权重相关。许多现有的富集方法需要选择最显著实体(任意数量)和/或不考虑实体的权重。其他方法要么需要进行大量模拟以获得统计数据,要么假设权重服从正态分布。此外,大多数方法难以为只有少量实体的术语分配正确的统计显著性。通过实施著名的Lugananni-Rice公式,我们开发了一种新的方法,称为SaddleSum,它摆脱了所有上述限制,并将其与几种现有方法进行了评估。在适当考虑实体权重的情况下,SaddleSum在内部一致且稳定,不受选择最显著实体数量的影响。在对输入数据进行少量假设的情况下,该方法是通用的,因此可以应用于超出微阵列分析领域。通过使用渐近近似,SaddleSum提供了一个术语大小相关的分数分布函数,甚至可以为只有少量实体的术语提供准确的统计显著性。因此,SaddleSum使研究人员对其对通常在生物上最具特异性的小术语的显著性分配具有信心。
作者:Aleksandar Stojmirovi\'c and Yi-Kuo Yu
论文ID:1004.5088
分类:Quantitative Methods
分类简称:q-bio.QM
提交时间:2011-10-25