惠勒地图

摘要:基于全基因组读取比对的挑战,我们提出了一种称为Wheeler maps的Wheeler图的推广。 Wheeler地图存储一个文本$ T [1..n] $以及对$ T $的字符分配的标签,以便我们可以预处理模式$ P [1..m] $,然后在给定$ i $和$ j $的情况下,快速返回在$ T $中将$ P [i..j] $的第一个字符标记为不同标签的所有标签。对于我们最感兴趣的应用程序,具有长公共上下文的字符很可能具有相同的标签,因此我们将考虑以Burrows-WheelerTransform(BWT)中的字符位置对它们进行排序的标签列表中的运行数$ t $。我们展示了如何通过给定$ T $的直线程序(带有$ g $个规则)来构建一个$ O(g + r + t)$ 空间的Wheeler map,在其中$ r $是$ T $的BWT中的运行数,我们可以以$ O(mln(N)) $的时间预处理模式$ P [1..m] $,然后对于任何给定的$ i $和$ j $在最佳$ O(k) $的时间内返回$ P [i..j] $的$ k $个不同的标签。我们还展示了与优先考虑最频繁的标签相关的各种其他结果。

作者:Andrej Bal''az, Travis Gagie, Adri''an Goga, Simon Heumos, Gonzalo Navarro, Alessia Petescia and Jouni Sir''en

论文ID:2308.09836

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-08-22

PDF 下载: 英文版 中文版pdf翻译中