整合测序数据集以形成对完整人类基因组进行高度可信的SNP和indel基因型调用
摘要:对人类基因组测序的临床应用需要在全基因组的数百万或数十亿个位置上具有已知基因型呼叫准确度的方法。先前的研究显示了测序方法和算法之间的不一致,表明需要一个高度准确的全基因组基因型集作为基准。我们提出了一种方法,可以对NA12878进行高度置信的SNP、indel和纯合参考基因型的呼叫,NA12878是基因组瓶联盟的试验基因组。通过整合和仲裁来最小化对任何方法的偏见,我们利用来自5种测序技术、7种映射程序和3种变体呼叫程序的14个数据集进行分析。无法得出置信度高的基因型呼叫的区域被识别为不确定,并被分为不同的不确定原因。我们的高度置信的基因型呼叫可以在基因组比较和分析测试(GCAT)网站上公开获得,以实时评估任何方法。
作者:Justin M. Zook, Brad Chapman, Jason Wang, David Mittelman, Oliver Hofmann, Winston Hide, Marc Salit
论文ID:1307.4661
分类:Genomics
分类简称:q-bio.GN
提交时间:2014-02-18