基于路径的谱聚类:保证、对异常值的鲁棒性和快速算法
摘要:使用最长路径距离(LLPD)度量进行聚类问题。该度量对于具有细长和非规则形状的聚类具有信息量。当从高维空间中随机抽取样本数据时,我们证明了使用该度量进行聚类的性能具有有限样本保证,同时存在大量高维离群点。通过将这些结果与基于LLPD的谱聚类相结合,我们给出了一类大数据集中拉普拉斯特征间隔统计量正确确定聚类数目的条件,并且证明了所提算法的标签准确性保证。我们的方法非常通用,可以为带有任意超度量的谱聚类提供性能保证。我们还引入了一种高效、易于实现的基于多尺度分析邻接图的LLPD近似算法,使得LLPD谱聚类的运行时间近似于数据点数量的线性对数。
作者:Anna Little, Mauro Maggioni, James M. Murphy
论文ID:1712.06206
分类:Machine Learning
分类简称:stat.ML
提交时间:2019-03-07