准确基因组组装中的配对片段信息的理论界限
摘要:基因组组装问题的一个新的视角:基因组组装在提供足够的mate-pair信息的情况下是容易的。此外,本文还量化了在基因组中最长重复区域的长度方面,需要多少个mate-pair文库才能进行准确的基因组组装。在我们的分析中,我们考虑了一个理想化的测序模型,其中每个mate-pair文库在基因组的每个位置上生成一对没有错误的读取,且插入大小是固定的并已知。即使在这个理想化的模型中,我们证明了在最坏的情况下不能保证准确的基因组重构,除非至少产生大约R/2L个mate-pair文库,其中R是基因组中最长的重复区域的长度,L是每个读取的长度。另一方面,如果提供(R/L)+1个mate-pair文库,则可以使用简单的算法在多项式时间内轻松找到正确的基因组组装。尽管在实践中,(R/L)+1个mate-pair文库可能过多,但先前的边界仅适用于最坏的情况。在我们的最后结果中,我们展示了在基因组上满足附加条件的情况下,只需要O(log (R/L))个mate-pair文库就可以保证正确的组装。
作者:Henry Lin
论文ID:1310.1653
分类:Genomics
分类简称:q-bio.GN
提交时间:2013-12-30