高覆盖率样本中变异调用中的工件的更好理解路径
摘要:高覆盖度的全基因组测序已广泛用于个人和肿瘤基因组学以及各种研究领域。然而,在缺乏无偏全基因组真实集的情况下,变异调用的全局错误率和主要错误因素仍然不清楚,即使在评估变异调用方法方面也作出了巨大努力。 我们使用两个读取映射器和五个变异调用器,在单倍体人类基因组和类似覆盖率的二倍体基因组上生成了十个单核苷酸多态性(SNP)和插入/缺失(INDEL)调用集合。通过研究单倍体基因组中的错误异质型调用,我们确定了低复杂性区域中的错误重对齐和样本相对参考基因组的不完整性是错误的两个主要来源,这需要在这两个领域继续改进。我们估计原始基因型调用的错误率高达每10-15kb中的1个,但经过过滤后的调用的错误率降低到每100-200kb中的1个,而对灵敏度没有显著影响。 BWA-MEM对齐:http://bit.ly/1g8XqRt;脚本:https://github.com/lh3/varcmp;附加数据:https://figshare.com/articles/Towards\_better\_understanding\_of\_artifacts\_in\_variating\_calling\_from\_high\_coverage\_samples/981073
作者:Heng Li
论文ID:1404.0929
分类:Genomics
分类简称:q-bio.GN
提交时间:2018-07-27