无初始化的基于图的聚类-arXiv论文预印本中文版

无初始化的基于图的聚类

摘要：提出了一种针对多组分数据集的聚类方法，包括对聚类数量的估计。通过使用普里姆算法构建最小生成树，并假设顶点的分布近似符合泊松分布，通过对普里姆轨迹进行阈值处理来估计聚类数量。然后计算相应的聚类中心，以便初始化广义Lloyd算法，也称为K-均值算法，从而避免初始化问题。通过在欧几里得空间中进行的近似计算，得到了用于评估聚类检测算法误报率的一些结果。用于测量多维数据点相似性的度量基于对称散度。将这些信息散度与提出的方法结合使用，可以在天体数据处理问题上取得更好的结果，与其他聚类方法相比。还介绍了该方法在多/高光谱成像领域中的一些应用，包括对巴黎卫星图像和火星行星图像的处理。为了证明散度在我们的问题中的有效性，将基于信息散度作为相似度度量的方法与使用传统度量的同一方法进行了比较。在天体物理应用中，还将该方法与光谱聚类算法进行了比较。

作者：Laurent Galluccio, Olivier J.J. Michel (GIPSA-lab), Pierre Comon, Eric Slezak (CASSIOPEE), Alfred O. Hero

论文ID：0909.4395

分类：Machine Learning

分类简称：stat.ML

提交时间：2009-09-25

PDF 下载： 英文版中文版pdf翻译中