使用经过纠正的长读取k-mer频率估算基因组大小

摘要:第三代长读测序技术,如PacBio和Nanopore,在de novo组装研究中比第二代Illumina测序有很大优势。然而,由于固有的低碱基准确性,第三代测序数据不能用于k-mer计数和基于k-mer频率估计基因组特征。因此,在当前的基因组项目中,第二代数据也是必要的,以准确确定基因组大小和其他基因组特征。我们展示了纠正的第三代数据可以可靠地用于k-mer计数和估计基因组大小,取代使用第二代数据。因此,未来的基因组项目可以依赖于只一种测序技术来完成组装和k-mer分析,从而大大降低测序成本(时间和金钱)。此外,我们提供了一个快速轻量级的工具kmerfreq,并使用它来执行本工作中的所有k-mer计数任务。我们已经证明了纠正的第三代测序数据可以用于估计基因组大小,并开发了一个新的开源C/C++的k-mer计数工具kmerfreq,可以在https://github.com/fanagislab/kmerfreq免费获取。

作者:Hengchao Wang, Bo Liu, Yan Zhang, Fan Jiang, Yuwei Ren, Lijuan Yin, Hangwei Liu, Sen Wang, and Wei Fan

论文ID:2003.11817

分类:Genomics

分类简称:q-bio.GN

提交时间:2020-03-27

PDF 下载: 英文版 中文版pdf翻译中