无参考算法的计算归一化剖析测序数据

摘要:基因组、转录组、扩增单细胞基因组和宏基因组的深度测序和分析已经使得对各种生物和生态系统进行研究成为可能。然而,短读取数据的采样变异以及现代测序仪的高测序误差率提出了许多新的数据解释的计算挑战。这些挑战导致了新一类的比对工具和从头组装工具的发展。这些算法在测序吞吐量的持续改进中面临挑战。我们在这里描述了数字归一化,这是一种单遍计算算法,它系统化地处理了测序数据集中的覆盖度,从而减少了采样变异,丢弃了多余数据,并去除了大部分错误。数字归一化显著减小了测序数据集的大小,并减少了从头组装序列所需的内存和时间需求,同时对所生成的contigs的内容几乎没有影响。我们将数字归一化应用于微生物基因组数据、扩增单细胞基因组数据和转录组数据的组装。我们的实现可自由使用和修改。

作者:C. Titus Brown, Adina Howe, Qingpeng Zhang, Alexis B. Pyrkosz, Timothy H. Brom

论文ID:1203.4802

分类:Genomics

分类简称:q-bio.GN

提交时间:2012-05-22

PDF 下载: 英文版 中文版pdf翻译中