人类基因组中简单重复序列的统计分析

摘要:人类基因组中含有不同水平的、序列长度不同、数量和分散性不同的重复DNA。高度重复的DNA特别富含同源和二核苷酸重复序列,而中度重复的DNA则富含散布在数百个碱基对(bp)长的移动元件家族,其中包括Alu家族。最近强调了同源聚合物和二聚体轨迹与移动元件之间的联系。特别是,Alu重复序列的移动性与位于Alu末端的poly(A)轨迹长度相关。这些轨迹具有刚性和不可弯曲的结构,并且对正常压缩DNA的核小体具有抑制作用。我们对人类基因组中poly(X)和poly(XY)轨迹的长度和轨迹之间的间隔进行了统计分析。我们的研究表明,在人类中,这些序列的长度分布反映了其扩展和DNA复制的动态。通过使用语言学中的一般工具,我们表明后者在DNA文本中起到了非常显著的包含内容的角色。此外,我们发现这些轨迹的定位呈非随机性分布,表现出明显的150个碱基周期性。这使我们能够延伸重复的、高度移动的元素(例如Alu)与人类DNA中的低复杂性词之间的联系。更准确地说,我们表明Alu是poly(X)轨迹的来源,这反过来以微妙的方式影响基因表达的组合和多基因家族的固定化。

作者:Francesco Piazza, Pietro Lio

论文ID:q-bio/0502009

分类:Genomics

分类简称:q-bio.GN

提交时间:2009-11-11

PDF 下载: 英文版 中文版pdf翻译中