核聚类:密度偏差与解决方案

摘要:核方法在聚类中很受欢迎,因为它具有广泛性和区分力。然而,我们发现许多核聚类准则在理论上存在密度偏倚,从而解释了过去在实践中观察到的一些重要现象。例如,我们提供了条件并在常见的一类核的情况下正式证明了核K-means中的密度模式隔离偏倚。我们将其称为Breiman的偏倚,因为它与之前由Breiman在决策树学习中发现的基尼不纯度中的直方图模式隔离相似。我们还将我们的分析扩展到其他流行的核聚类方法,例如平均/归一化割或主导集,其中密度偏差可以采取不同的形式。例如,通过基于割的准则分割孤立点实质上是最稀疏子集偏倚,这与密度模式偏倚相反。我们的发现表明,核聚类中的密度偏差的原则性解决方案应直接解决数据的不均匀性。我们表明,可以使用本地自适应权重或本地自适应核来隐式实现密度均衡。此外,密度均衡使得许多流行的核聚类目标等价。我们的合成和真实数据实验证明了密度偏差和提出的解决方案。我们预计核聚类限制的理论理解及其原则性解决方案对于跨学科的数据分析应用将是重要的。

作者:Dmitrii Marin, Meng Tang, Ismail Ben Ayed, Yuri Boykov

论文ID:1705.05950

分类:Machine Learning

分类简称:stat.ML

提交时间:2017-12-11

PDF 下载: 英文版 中文版pdf翻译中