准确基因组组装中的配对片段信息的理论界限

摘要:基因组组装问题的一个新的视角:基因组组装在提供足够的mate-pair信息的情况下是容易的。此外,本文还量化了在基因组中最长重复区域的长度方面,需要多少个mate-pair文库才能进行准确的基因组组装。在我们的分析中,我们考虑了一个理想化的测序模型,其中每个mate-pair文库在基因组的每个位置上生成一对没有错误的读取,且插入大小是固定的并已知。即使在这个理想化的模型中,我们证明了在最坏的情况下不能保证准确的基因组重构,除非至少产生大约R/2L个mate-pair文库,其中R是基因组中最长的重复区域的长度,L是每个读取的长度。另一方面,如果提供(R/L)+1个mate-pair文库,则可以使用简单的算法在多项式时间内轻松找到正确的基因组组装。尽管在实践中,(R/L)+1个mate-pair文库可能过多,但先前的边界仅适用于最坏的情况。在我们的最后结果中,我们展示了在基因组上满足附加条件的情况下,只需要O(log (R/L))个mate-pair文库就可以保证正确的组装。

作者:Henry Lin

论文ID:1310.1653

分类:Genomics

分类简称:q-bio.GN

提交时间:2013-12-30

PDF 下载: 英文版 中文版pdf翻译中