使用重要性抽样和交叉熵方法高效估计排列检验中的小P值
摘要:基因组学研究中的排列检验常用于在零假设下测试检验统计量的抽样分布具有无法解析或由于样本容量有限而不可靠的情况。在应用排列检验进行基因组学研究时,一个关键挑战是通常需要大量排列来获得非常小的p值的可靠估计,从而导致计算工作量巨大。为了解决这个问题,我们开发了准确且高效估计成对和独立两组基因组数据排列检验中小p值的算法,我们的方法利用了一个新颖的框架,分别使用伯努利分布和条件伯努利分布对这两类数据的排列样本空间进行参数化,并结合交叉熵方法。我们提出的算法的性能通过对两个模拟数据集和两个由微阵列和RNA-Seq技术生成的真实基因表达数据集的应用以及与粗糙排列和SAMC等现有方法的比较得到了验证,结果表明我们的方法在估计小p值时可以获得计算效率上的数量级的提升。我们的方法为改进现有的排列检验程序的计算效率以及在基因组数据分析中开发新的排列检验方法提供了很有前景的解决方案。
作者:Yang Shi, Huining Kang, Ji-Hyun Lee and Hui Jiang
论文ID:1608.00053
分类:Computation
分类简称:stat.CO
提交时间:2023-08-29