大字母字符串的工程排名/选择数据结构

摘要:高位字母字符串在信息检索和自然语言处理等多个场景中很常见。高效存储和处理这种字符串通常面临许多挑战,这些挑战在较小字母表的字符串中不会出现。本文研究了处理高位字母字符串的最有效方法之一,即“字母分割”方法的高效实现。主要贡献是一种支持rank和select基本操作的压缩数据结构。我们展示了实验结果,表明我们的实现优于当前的字母分割方法的实现。特别是,通过使用比当前字母分割方案多11%的空间,select操作的时间可以提高约80%。我们还展示了我们的数据结构对多个应用的影响,例如倒排列表的交集(使用额外2%的空间可以实现最多60%的改进),以及运行长度压缩字符串的表示和分布式计算处理rank和select操作。

作者:Diego Arroyuelo, Gabriel Carmona, H''ector Larra~naga, Francisco Riveros, Erick Sep''ulveda

论文ID:2305.14461

分类:Data Structures and Algorithms

分类简称:cs.DS

提交时间:2023-05-25

PDF 下载: 英文版 中文版pdf翻译中