DBG2OLC:利用第三代测序技术生成长错误读取的高效组装大基因组

摘要:将下一代测序(NGS)过渡到第三代测序(3GS)一直备受期待,但由于高错误率和昂贵的测序成本而变得困难。高错误率使得组装大基因组的长reads具有挑战性,因为现有的软件解决方案通常在错误校正任务下难以承受。在这里,我们报告了一种混合组装方法,同时利用NGS和3GS数据来解决这两个问题。我们从三个通用的基本设计原则中获得了优势:(i)长reads的紧凑表示导致了高效的比对;(ii)可以跳过基因组水平的错误;结构错误需要被检测和纠正;(iii)组装和精修结构正确的3GS reads。在我们的实现中,使用预组装的NGS contigs来导出长reads的紧凑表示,从而建立了从de Bruijn图到重叠图的算法转换,这两种是主要的组装范式。此外,由于NGS和3GS数据可以彼此补充,我们的混合组装方法同时降低了它们的测序要求。实验证明,我们的软件能够以比现有方法高效几个数量级地组装哺乳动物大小的基因组,同时节省大约一半的测序成本。

作者:Chengxi Ye, Chris Hill, Shigang Wu, Jue Ruan, Zhanshan (Sam) Ma

论文ID:1410.2801

分类:Genomics

分类简称:q-bio.GN

提交时间:2016-09-06

PDF 下载: 英文版 中文版pdf翻译中