使用深度平均网络进行基因组变体调用
摘要:变异检测是基因组学中基本的问题,可以估计DNA序列中的某个位置是否与参考序列不同,给定覆盖该位置的有噪声、冗余、重叠的短序列。我们提出了一种专门用于变异检测的深度平均网络。我们的模型通过一系列卷积层将每个短输入读取序列进行转换,考虑到每个短序列的独立性,将个别读取通过平均和连接操作限制为平均值。我们在precisionFDA Truth Challenge(pFDA)的训练和测试中,与最先进的方法匹配了整体99.89的F1分数。基因组数据集在易例和决策边界上的示例之间存在极大的偏斜。我们利用这一特性,在训练过程中跳过易例,以5倍于标准时期训练速度收敛模型。为了便于以后的工作,我们发布了我们的代码、训练模型和经过预处理的公共领域数据集。
作者:Nikolai Yakovenko, Avantika Lal, Johnny Israeli and Bryan Catanzaro
论文ID:2003.07220
分类:Genomics
分类简称:q-bio.GN
提交时间:2020-03-17