线性时间构建可索引的弹性创始人图

摘要:在基因组学应用中,图的模式匹配近年来得到了广泛研究。不幸的是,即使是判断一个字符串是否作为图的子路径出现的最简单问题,在正交向量假设下有一个二次下界(Equi等人,ICALP 2019,SOFSEM 2021)。为了避免这个瓶颈,研究已经转向更特定的图类,例如从多序列比对(MSAs)中诱导出的图类。考虑将$mathsf{MSA}[1..m,1..n]$分段为$b$个块$mathsf{MSA}[1..m,1..j\_1]$,$mathsf{MSA}[1..m,j\_1+1..j\_2]$,...,$mathsf{MSA}[1..m,j\_{b-1}+1..n]$。在去除间隙符号之后,块的行中不同的字符串形成弹性创始者图(EFG)的节点,其中边表示在MSA中观察到的原始连接。如果节点标签只作为从同一块的节点开始的路径的前缀出现,则该EFG被称为可索引的。Equi等人(ISAAC 2021)证明了这样的EFG支持快速模式匹配,并给出了在预处理MSA的情况下,以$O(mn log m)$时间构建可索引EFG的算法,使得块的数量最大化,或者最小化块的最大长度,分别在$O(n)$和$O(n loglog n)$时间内。通过使用后缀树并解决树上的一个新颖的祖先问题,我们改进了预处理到$O(mn)$的时间,并将$O(n log log n)$时间的EFG构造改进到$O(n)$时间,从而证明了两种类型的可索引EFG都可以在输入大小的线性时间内构建出来。

作者:Nicola Rizzo and Veli M"akinen

论文ID:2201.06492

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-07-04

PDF 下载: 英文版 中文版pdf翻译中