通过对宏基因组数据集进行连通性分析揭示的Illumina测序伪迹

摘要:元宏组学数据集中的测序错误和偏差影响基于覆盖率的组装,在分析过程中常常被忽略。在这里,我们分析元宏基因组中的读取连接性,并鉴定组装图中存在问题的和可能的非生物连接性。具体而言,我们确定了高度连接的序列,这些序列在每个真实的元宏基因组内连接了大部分的读取。这些序列在shotgun读取中显示出位置特异性的偏差,暗示测序的人为问题,并且在组装中仅稍微纳入了contigs中。在组装之前去除这些序列会导致大多数元宏基因组的类似组装内容,并且可以使用图的划分来减少组装所需的内存和时间。

作者:Adina Chuang Howe, Jason Pell, Rosangela Canino-Koning, Rachel Mackelprang, Susannah Tringe, Janet Jansson, James M. Tiedje, C. Titus Brown

论文ID:1212.0159

分类:Genomics

分类简称:q-bio.GN

提交时间:2012-12-04

PDF 下载: 英文版 中文版pdf翻译中