基因组范围关联研究中的迭代硬阈值模型选择

摘要:基因组关联研究(GWAS)将标记变异与个体特征变异相关联。研究对象在全基因组范围内进行多个SNP(单核苷酸多态性)的基因分型。我们假设研究对象无关,并随机收集,并且特征值服从正态分布或经过正态化转换。在过去的十年里,研究人员在数百个特征上成功应用了GWAS分析。这些研究产生了大量数据,带来了独特的计算挑战。带有LASSO或MCP惩罚的惩罚回归能够从数百万个潜在SNP中选择出一小部分相关SNP。不幸的是,模型选择可能会被假阳性和假阴性所影响,从而使特征的遗传基础变得模糊。本文将迭代硬阈值(IHT)算法引入连续性特征的GWAS分析中。我们的并行实现适应SNP基因型压缩,并利用多个CPU核心和图形处理单元(GPU)。这让统计遗传学家能够利用普通台式机进行GWAS分析,避免使用超级计算机。我们评估了IHT在模拟和真实的GWAS数据上的性能,并得出结论:相较于惩罚回归,在计算时间上减少了假阳性和假阴性的比例。源代码可在https://github.com/klkeys/IHT.jl免费获取。

作者:Kevin L. Keys, Gary K. Chen and Kenneth Lange

论文ID:1608.01398

分类:Machine Learning

分类简称:stat.ML

提交时间:2019-01-14

PDF 下载: 英文版 中文版pdf翻译中