重复文本集合上的MEMs计算

摘要:计算大规模重复文本集合上给定模式$P[1..m]$的最大精确匹配(MEMs)问题,其中文本集合$T[1..n]$表示为大小为$g_{rl}$的(希望较小)RLCFG。我们证明该问题可以在$O(m^2 log^\epsilon n)$的时间内解决,其中$\epsilon>0$为任意常数,数据结构的大小为$O(g_{rl})$。此外,在大小为$O(deltalogfrac{n}{delta})$的局部一致语法上,时间可以减少到 $O(mlog m(log m + log^\epsilon n))$。这里$delta$是$T$的子字符串的复杂度的函数,$Omega(deltalogfrac{n}{delta})$是重复文本$T$的可压缩性的紧密下界,因此我们的结构在$n$和$delta$方面的大小是最优的。我们将结果扩展到找到至少出现$q$次的$q$-MEMs问题。

作者:Gonzalo Navarro

论文ID:2210.09914

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-08-10

PDF 下载: 英文版 中文版pdf翻译中