突破构建参数化模式匹配紧凑索引的障碍

摘要:参数化字符串(p-string)是一个由字母表$(Sigma\_{s} \cup Sigma\_{p})$上的字符串构成,其中$Sigma\_{s}$和$Sigma\_{p}$是用于静态符号(s-symbols)和参数符号(p-symbols)的不相交字母表。如果$p$-string $x$和$y$可以通过对$x$中的每个参数符号应用$Sigma\_{p}$上的双射将其转化为$y$,则称其为参数化匹配(p-match)。参数化匹配的索引问题是预处理长度为$n$的$p$-string $T$,以便我们可以高效地找到与给定模式$p$-match的$T$子串的出现位置。扩展Burrows-Wheeler变换(BWT)的精确字符串模式匹配索引,Ganguly等人[SODA 2017]提出了第一个紧凑索引(称为pBWT)用于p-matching,并提出了一个如何在紧凑空间$O(n lg |Sigma\_{s} \cup Sigma\_{p}|)$位构造它的开放问题。Hashimoto等人[SPIRE 2022]通过展示如何在线逐个从右到左读取$T$符号的方式在$O(n \frac{|Sigma\_{p}| lg n}{lg lg n})$时间内构造$p$BWTs的一些组件,部分解决了这个问题。在本文中,我们改进了时间复杂度为$O(n \frac{lg |Sigma\_{p}| lg n}{lg lg n})$。我们指出,从复杂度中移除$|Sigma\_{p}|$的乘法因子非常有趣,因为即使在离线设置中,在参数化后缀数组等相关数据结构的构造中,已有超过十年没有实现该目标。我们还展示了我们的数据结构可以在在线构建的任何阶段支持向后搜索,这是基于BWT的索引的核心过程,使其成为第一个可以在紧凑空间中甚至在线构建的用于p-matching的紧凑索引。

作者:Kento Iseri, Tomohiro I, Diptarama Hendrian, Dominik K"oppl, Ryo Yoshinaka, Ayumi Shinohara

论文ID:2308.05977

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-08-14

PDF 下载: 英文版 中文版pdf翻译中