模态值符号数据的聚类

摘要:符号数据分析基于对数据的特殊描述-符号对象(SO)。这些描述保留了比通常的均值表示更详细的有关单元和它们的聚类的信息。一种特殊的符号对象是具有频率或概率分布(众数)的表示。这种表示方式使我们能够同时考虑所有测量类型的变量在聚类过程中的作用。本文提出了一种适用于SO的聚类条件函数,使得每个聚类的代表再次由变量值的分布组成。相应的领导聚类方法基于这一结果。还表明,对于相应的凝聚层次方法,存在一个广义Ward公式。这两种方法是兼容的-它们解决的是相同的聚类优化问题。领导者方法有效地解决了具有大量单元的聚类问题;而凝聚性方法可以单独应用于较小的数据集,或者可以应用于用兼容的非层次聚类方法获得的领导者上。这两种兼容方法的结合使我们能够基于相应的树状图决定正确的聚类数。所提出的方法已应用于不同的数据集。本文给出了对ESS数据进行聚类的一些结果。

作者:Vladimir Batagelj and Natav{s}a Kejv{z}ar and Simona Korenjak-v{C}erne

论文ID:1507.06683

分类:Machine Learning

分类简称:stat.ML

提交时间:2020-10-27

PDF 下载: 英文版 中文版pdf翻译中