转录因子通过机器学习集成进行DNA结合
摘要:结合机器学习(ML)框架中的五种已知的模体/结合位探索算法的预测,我们提出了集成方法。对于给定的转录因子(TF),集成从组成算法收集的模体的位置权重矩阵(PWM)。通过使用降维技术,我们识别出用于分析的基于PWM的重要子空间。在每个子空间中,建立一个机器分类器来识别TF的基因(启动子)靶点(问题1)。这些基于PWM的子空间形成了一个基于ML的序列分析工具。通过汇集在识别基因靶点方面有显著优势的基于k-mer(字符串)特征PWM的子空间,我们解决了问题2(查找结合模体)。我们采用一种新颖的机器学习方法来处理问题3(结合位),该方法使用了启动子字符串特征和ML重要性评分,通过分类算法在基因组中定位结合位。对于目标基因的识别,这种方法在F1分数上的性能提高了约10个百分点,超过了(a)模体扫描方法和(b)共表达关联方法。最佳模体的性能优于5个组成算法以及其他两个常用算法(BEST和DEME)。在基准物种数据库(Tompa et al。,2005)上识别个体结合位时,我们基本上能够做到最好的表现而不需要人工干预。它还提高了对哺乳动物转录因子的性能。 该集成方法可以将不同的弱学习器(可能使用完全不同类型的特征)的正交信息整合到一个机器学习器中,以便为更多的转录因子提供始终更好的性能。TF基因靶点识别组件(问题1)在从已知的TF-靶点关联中构建转录调控网络方面非常有用。该集成方法很容易扩展,可以包括更多的工具以及未来基于PWM的信息。
作者:Yue Fan, Mark Kon and Charles DeLisi
论文ID:1805.03771
分类:Genomics
分类简称:q-bio.GN
提交时间:2018-05-11