利用de Bruijn图准确自我校正长读错误
摘要:长读取序列技术,如PacBio SMRT和Oxford NanoPore,可以生成长达50,000 bp的序列读取,但误差率至少为15\%。降低误差率对于后续利用读取,如de novo基因组组装,是必要的。纠错问题可以通过将长读取与其他长读取进行对齐,或使用由第二代测序技术产生的更准确的短读取来纠正的混合方法来解决。我们提出了一种仅使用长读取的错误纠正方法。该方法包括两个阶段:首先,我们使用基于de Bruijn图的逐渐增加k-mer长度的迭代无对齐纠错方法,其次,使用多个对齐找到的长程依赖性进一步对纠正的读取进行优化。根据我们的实验,所提出的方法是仅依赖长读取的读取集的最准确的方法。此外,当读取集的覆盖度至少为75倍时,新方法的吞吐量至少提高20\%。LoRMA可以免费获取,网址为http://www.cs.helsinki.fi/u/lmsalmel/LoRMA/。
作者:Leena Salmela, Riku Walve, Eric Rivals and Esko Ukkonen
论文ID:1604.02233
分类:Genomics
分类简称:q-bio.GN
提交时间:2021-11-18