Sam2bam:面向NGS数据预处理工具的高性能框架

摘要:一种高吞吐量软件工具框架(sam2bam)的介绍,使用户能够显著加快下一代测序数据的预处理。sam2bam在单节点多核大内存系统上特别高效。与事实上的标准工具相比,它可以将单节点系统上标记重复读取的数据预处理运行时间降低156-186倍。sam2bam由并行软件组件组成,可以充分利用多个处理器、可用内存、存储带宽和硬件压缩加速器(如果可用)。 sam2bam提供了知名基因组文件格式之间的文件格式转换,从SAM到BAM作为基本特性。附加功能(如分析、过滤和转换输入数据)由插件工具(例如重复标记)提供,可以在运行时附加到sam2bam。 我们证明了sam2bam可以将在16核单节点系统上使用高达130GB内存的全外显子数据集的NGS数据预处理运行时间从大约两小时缩短到大约一分钟。sam2bam可以将相同系统上使用高达711GB内存的全基因组测序数据的运行时间从约20小时缩短到约9分钟。

作者:Takeshi Ogasawara, Yinhe Cheng, Tzy-Hwa Kathy Tzeng

论文ID:1608.01753

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-02-08

PDF 下载: 英文版 中文版pdf翻译中