DNA基序发现中假阳性的理论理解

摘要:检测虚假正面主题是低性能主题发现方法的主要原因之一。一般认为,虚假正面主题主要是由于主题发现算法的弱点。然而,我们在这里推导出虚假正面主题与数据集大小之间的理论关系,并发现虚假正面主题可能是由于数据集的大小而产生的,而与所使用的算法无关。有趣的是,虚假正面主题的强度更多地取决于数据集中的序列数量,而不是序列长度。正如预期的,通过减少序列长度或向数据集中添加更多序列,可以减少虚假正面主题。然而,对序列数量的依赖在达到一个平台后逐渐减弱,此后再向数据集中添加更多序列不会显著减少虚假正面率。基于这里提出的理论结果,我们提供了一些直观的经验法则,可以用来改进实践中的主题发现结果。

作者:Amin Zia, Alan M. Moses

论文ID:1012.5011

分类:Genomics

分类简称:q-bio.GN

提交时间:2010-12-23

PDF 下载: 英文版 中文版pdf翻译中