DNA调控底物的结构表示可以通过关联功能序列变体来增强基于序列的算法
摘要:DNA 结构表示对解析蛋白质-DNA 结合位点和调控底物(如基因表达和水平基因转移)等方面可能不太完善。鉴于类似序列的表示在算法上非常有用,我们将目前可用的60多个DNA 物理化学与构象变量融合为紧凑的结构表示,可以对单个DNA 结合位点到整个调控区域进行编码。我们发现主要的结构组成反映了蛋白质-DNA 相互作用的关键特性,并可以压缩到单个核苷酸位置中所包含的信息量。最准确的结构表示将功能DNA 序列变体压缩了30% 到50%,每个实例都可以编码数十到数千个序列。我们发现,结构距离函数比基于核苷酸序列的度量更准确地区分DNA 底物群体。由于大多数当前的生物信息学方法对核苷酸序列进行了偏见,因此可能仍然可以通过这种解决方案实现相当大的性能提升。为了实现多样化的应用可能性,我们开发并测试了一种基于距离的比对算法,展示了使用结构表示增强基于序列的算法的潜力。
作者:Jan Zrimec
论文ID:2007.14922
分类:Genomics
分类简称:q-bio.GN
提交时间:2020-07-30