MAGNET: 理解和改善基因组预对准过滤的准确性

摘要:在高通量DNA测序(HTS)技术时代,计算基因组序列之间的编辑距离(即替换、插入和删除的最小次数)是当前读取映射器的计算瓶颈。偏移汉明距离(SHD)算法提出了一种快速筛选策略,可以快速过滤出编辑次数超过允许值的无效映射。然而,SHD在筛选中显示出较高的不准确性,允许将无效映射标记为正确映射。这浪费了执行时间并增加了大量的计算负担。在这项工作中,我们全面研究了导致筛选不准确性的四个原因。我们提出了MAGNET,一种新的筛选策略,它在不同编辑距离阈值和数据集上保持高准确性。它将预对准筛选的准确性提高了一个到两个数量级。MAGNET和SHD的MATLAB实现是开源的,并可在https://github.com/BilkentCompGen/MAGNET上获取。

作者:Mohammed Alser, Onur Mutlu, Can Alkan

论文ID:1707.01631

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-08-17

PDF 下载: 英文版 中文版pdf翻译中