TreQ-CG:聚类加速高通量测序读图

摘要:高通量测序仪作为测序中心之外的标准设备,需要有效的预处理和初步分析方法。尽管有大量文献提出了高通量测序数据分析的方法,但我们认为仍然可以通过利用昂贵的预处理步骤来获得显著改进,这些改进可以通过后面阶段的节省来延缓。我们提出了一种基于可能有数十亿个高通量测序读取的初始聚类的方法,加速和改进了读映射,产生了高严格性和高重叠度的聚类。对于小数据集的运行时间,这种聚类方法优于现有技术,同时,首次实现了对高覆盖人类文库的聚类。鉴于高效计算的聚类,只需要使用传统的读映射器(例如BWA)将每个聚类中的一个代表性读取映射,而不是逐个映射所有读取。在人类读取数据上,包括聚类和映射在内的所有处理步骤,只需要单独映射所有读取的11\%-59\%的时间,实现了对所有读映射器的加速,同时对映射质量影响较小。这使得高灵敏度的读映射器(如Stampy)在非聚类读取上与快速读映射器(如BWA)具有竞争力。

作者:Md Pavel Mahmud and Alexander Schliep

论文ID:1404.2872

分类:Computational Engineering, Finance, and Science

分类简称:cs.CE

提交时间:2014-04-11

PDF 下载: 英文版 中文版pdf翻译中