随着测序读数长度的增加,映射可行性的增长递减:人类基因组中k-mer分布的启示

摘要:基因组中非唯一序列(非单体)的数量直接影响高通量测序数据对参考基因组的读取对齐的难度。尽管较长的读取长度增加了读取可以唯一映射到参考基因组的机会,但是对读取长度对可映射性的影响进行定量分析尚缺乏。为了解决这个问题,我们评估了人类参考基因组的k-mer分布。对于k从20到1000个碱基对,确定了k-mer的频率。我们使用非单体k-mers的比例来评估相应读取长度的映射性。我们观察到非单体比例随着k的增加而缓慢减少,并且可以用不同k范围的分段幂律函数拟合。较小的k值下更快的衰减表明对于读取长度大于200个碱基对而言,增益有限。k-mer的频率分布呈现出类似幂律的长尾趋势,并且频率排序图表现出凹曲的Zipf曲线。最常见的1000个巨基因区域位于172千碱基对的范围内,其中包括染色体1和X上的四个大片段,这些片段含有具有生物医学意义的基因。即使是1000个碱基对的读取长度也无法可靠地对这些特定区域进行测序。

作者:Wentian Li, Jan Freudenberg, Pedro Miramontes

论文ID:1308.6240

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-03-03

PDF 下载: 英文版 中文版pdf翻译中