基于监督学习的人群遗传分类
摘要:遗传学中,存在许多情况需要确定两个候选种群是否可以根据其基因结构区分开来。例子包括地理分离的种群、病例-对照研究和质量控制(当参与研究的人在不同实验室进行基因型分析时)。在大规模全基因组关联研究时,后一种应用尤其重要,因为不同位置基因型分析的个体集合被合并以提供更大的功效。检测种群内部结构的传统方法是使用一些形式的探索技术,如主成分分析。这些方法不利用我们对候选种群成员身份的先验知识,因此称为无监督方法。然而,有监督方法则能够在可用时利用这些先验知识。 本文证明,在这种情况下,现代的有监督方法更适合于检测种群间的遗传差异。我们应用了两种这样的方法(神经网络和支持向量机)来对三个种群(两个来自苏格兰,一个来自保加利亚)进行分类。这两种方法都表现出的敏感性远高于主成分分析,并且实际上远超过了无监督方法敏感性的最近猜测的理论限制。特别是,我们的方法能够区分两个苏格兰种群,而主成分分析则无法实现。根据我们的结果,我们建议在将个体分类为预定义种群时,特别是在大规模全基因组关联研究的质量控制中,有监督学习方法应该是首选方法。
作者:M. Bridges, E. A. Heron, C. O'Dushlaine, R. Segurado, The International Schizophrenia Consortium (ISC), D. Morris, A. Corvin, M. Gill, C. Pinto
论文ID:1012.3555
分类:Quantitative Methods
分类简称:q-bio.QM
提交时间:2015-05-20