FINEX:用于精确和灵活的基于密度的聚类的快速索引(带有证明的扩展版本)

摘要:密度-based 聚类旨在在给定的数据集中找到相似对象(即簇)。应用包括过程挖掘和异常检测等。它包含两个用户参数(ε,MinPts),用于确定聚类结果,但通常事先不知道。因此,用户需要交互式地测试各种设置,直到找到满意的聚类。然而,现有解决方案存在以下限制:(a)无效的剪枝昂贵的邻域计算。(b)近似聚类,其中对象被错误地标记为噪声。(c)参数调整受限,只限于ε,而MinPts是常数,这减少了可探索的聚类。(d)适用数据类型和距离函数的灵活性不足。我们提出了一种名为FINEX的线性空间索引,克服了这些限制。我们的索引提供精确的聚类,并且可以使用这两个参数之一查询。FINEX在可能的情况下避免邻域计算,并通过利用密度-based 簇的基本属性减少剩余计算的复杂性。因此,我们的解决方案对于数据类型和距离函数来说既高效又灵活。此外,FINEX尊重密度-based 聚类的原始和简单概念。在我们对来自各个领域的12个大型真实世界数据集的实验中,FINEX经常比现有技术在精确聚类方面提高了数量级。

作者:Konstantin Emil Thiel and Daniel Kocher and Nikolaus Augsten and Thomas H"utter and Willi Mann and Daniel Ulrich Schmitt

论文ID:2304.04817

分类:Databases

分类简称:cs.DB

提交时间:2023-04-12

PDF 下载: 英文版 中文版pdf翻译中