基因组标记的空间映射

摘要:一种衡量和可视化任意数量DNA序列之间相互关系的计算方法被提出。可以通过计算DNA序列图形表示的每对之间的“图像距离”,并将距离可视化为一种分子距离图来实现。图上的每个点代表一个DNA序列,任意两个点之间的空间接近程度反映了相应序列之间的结构相似性。所采用的DNA序列图形表示方法是混沌游戏表示法(CGR),具有基因组和物种特异性,因此可以作为一种基因组签名。因此,分子距离图可用于物种鉴定、分类以及一定程度上的进化历史。所使用的图像距离是结构不相似性指数(DSSIM),隐式比较DNA序列中长达$k$(本文中$k=9$)的寡聚体出现情况。我们计算了500多万对完整线粒体基因组的DSSIM距离,并使用多维尺度分析(MDS)获得分子距离图,以在不同的分类水平上可视化序列相关性。这种通用方法不需要DNA序列同源性,因此可以用来比较相似或截然不同的DNA序列,包括基因组或计算机生成的序列,长度相同或不同。我们通过将其应用于几个分类子集来说明这种方法的潜在用途:脊椎动物门、原生动物(超)界、两栖类-昆虫类-哺乳类等等。对大规模数据集的分析证实了全mtDNA序列的寡聚体组成可以作为分类信息的来源。

作者:Lila Kari, Kathleen A. Hill, Abu S. Sayem, Rallis Karamichalis, Nathaniel Bryans, Katelyn Davis, Nikesh S. Dattani

论文ID:1406.4105

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-02-08

PDF 下载: 英文版 中文版pdf翻译中