确定性有限自动机的更快压缩
摘要:确定有限自动机(DFA)是一种在理论和实践中用于高吞吐量匹配正则表达式的经典工具。 由于它们占用空间大,已经有大量的研究致力于对DFA进行压缩表示,以支持高效的模式匹配查询。 Kumar等人(SIGCOMM 2006)引入了延迟确定有限自动机(ddfa),它利用自动机中状态间转换的大量冗余。 他们展示了在真实世界的DFA上实现了高达两个数量级的压缩,并且他们的工作成为了许多后续结果的基础。 他们提出的算法以及基于他们思想的后续算法都存在固有的二次时间瓶颈,因为它们考虑每一对状态来计算最佳压缩。 在这项工作中,我们提出了一个简单的通用框架,基于局部敏感哈希,用于加速这些算法,实现ddfa的次二次构建时间。 我们将这个框架应用于加速几个算法,接近线性时间,并在从现代入侵检测系统中提取的真实世界正则表达式集上实验评估其性能。 我们发现,在压缩时间方面有数量级的改进,无论是没有或几乎没有压缩损失,或者在某些情况下甚至存在更好的压缩。
作者:Philip Bille and Inge Li G{o}rtz and Max Rish{o}j Pedersen
论文ID:2306.12771
分类:Data Structures and Algorithms
分类简称:cs.DS
提交时间:2023-06-23