Dumpy：大数据系列集合的紧凑自适应索引-arXiv论文预印本中文版

Dumpy：大数据系列集合的紧凑自适应索引

摘要：数据系列索引对于管理和分析日益增多的数据系列集合是必需的。这些索引支持精确和近似相似性搜索，其中近似搜索可以在毫秒内提供高质量的结果，这对于某些现代应用非常具有吸引力。减少预处理时间（即索引构建时间）和提高搜索结果的准确性是两个主要的挑战。DSTree和iSAX索引系列是解决这个问题的最先进的解决方案。然而，DSTree的索引构建时间长，而iSAX的搜索准确性较低。在本文中，我们发现iSAX索引系列存在两个问题，对整体性能产生不利影响。首先，我们观察到与索引结构设计相关的接近紧凑性权衡存在，显著限制了结果索引的效率和准确性。其次，倾斜的数据分布将对iSAX的性能产生负面影响。为了解决这些问题，我们提出了Dumpy，一种采用新颖的多进制数据结构和自适应节点分裂算法和高效建造工作流的索引方法。此外，我们设计了Dumpy-Fuzzy作为Dumpy的变体，通过适当复制系列来进一步提高搜索准确性。对各种大型真实数据集的实验证明，与竞争对手相比，Dumpy解决方案在效率、可扩展性和搜索准确性方面取得了显着的改进。此论文发表于SIGMOD'23。

作者：Zeyu Wang, Qitong Wang, Peng Wang, Themis Palpanas and Wei Wang

论文ID：2304.08264

分类：Databases

分类简称：cs.DB

提交时间：2023-04-18

PDF 下载： 英文版中文版pdf翻译中