基因组比对中的隐藏断点

摘要:基因组演变过程中,基因组的大尺度结构可能发生变化,包括基因增加、丢失、复制、染色体融合、分裂和重排等。当基因增加和丢失与其他类型的重排同时发生时,只有通过比较三个或更多基因组才能检测到重排的断点。即使在两两比较中没有发现重排,基因组之间可能存在任意多个“隐藏”断点。 我们提出了一个多染色体断点中位数问题的扩展,适用于经历了基因增加和丢失的基因组。然后,我们证明了三个基因组之间的中位距离可以用来计算隐藏断点数量的下界。我们提供了这个计算的实现,包括中位距离,以及对底层算法时间复杂度的一些实际改进。 我们将我们的方法应用于在各种演化场景下模拟的数据集中,以测量隐藏断点的丰度。我们证明,在模拟中,隐藏断点数量强烈依赖于倒位和基因增加/丢失的相对速率。最后,我们将当前的多个基因组比对器应用于模拟基因组,并展示所有比对器都在隐藏断点数量方面引入了较高的误差,并且这个误差随着模拟中的演化距离而增加。我们的结果表明,隐藏断点误差可能在基因组比对中普遍存在。

作者:Birte Kehr, Knut Reinert, Aaron E. Darling

论文ID:1207.6964

分类:Genomics

分类简称:q-bio.GN

提交时间:2012-07-31

PDF 下载: 英文版 中文版pdf翻译中