基因组中序列组织的信息论视角

摘要:序列组织从两个角度来看:一个是从信息冗余或信息相关性(IC)角度,另一个是从k-mer频率统计角度。研究了两个问题。第一个问题是当序列长度达到某个临界值时,IC超过波动边界并且顺序从基因组中的波动中出现。我们证明了从波动到顺序的转变在人类和大肠杆菌基因组的约200-300万碱基的序列长度处发生。这意味着生命起源于宏观和微观之间的一个区域。第二个问题是在进化压力和功能选择下,基因组中k-mer组织的统计规律。我们推导出了一个关于N长基因组序列中k-mer频率偏差与随机性的求和规则Q(k,N),并推导出了Q(k,N)与k和N的关系。我们发现对于大多数基因组序列,Q(k,N)随着长度N以一个常定的速率增加,并证明当k-mer的功能选择累积到某个临界值时,顺序出现。一个重要的发现是这个求和规则与基因组的进化复杂性相关。

作者:Liaofu Luo, Yang Gao, Jun Lu

论文ID:1004.3843

分类:Genomics

分类简称:q-bio.GN

提交时间:2010-04-23

PDF 下载: 英文版 中文版pdf翻译中