强大且可扩展的内容与结构索引(扩展版)
摘要:频繁查询半结构化层次数据的是基于其在层次结构中的位置和某些属性值对数据项进行过滤的内容和结构(CAS)查询。我们提出了鲁棒且可伸缩的内容和结构(RSCAS)索引,以便在大规模半结构化数据上高效回答CAS查询。为了获得针对不同选择性查询鲁棒的索引,我们引入了一种新颖的动态交错方法,以平衡地合并组合键的路径和值维度。我们在基于字典树的RSCAS索引中存储交错键,该索引高效支持广泛的CAS查询,包括带有通配符和后代轴的查询。我们将RSCAS实现为日志结构合并(LSM)树,以将其扩展到具有高插入速率的数据密集型应用。我们通过对软件遗产(SWH)存档的数据进行索引来说明RSCAS的鲁棒性和可伸缩性,该存档是世界上最大且公开可用的源代码存档。
作者:Kevin Wellenzohn, Michael H. B"ohlen, Sven Helmer, Antoine Pietri, Stefano Zacchiroli
论文ID:2209.05126
分类:Databases
分类简称:cs.DB
提交时间:2022-09-13