不平衡数据下的谱聚类

摘要:基于谱聚类(SC)和基于图的半监督学习(SSL)算法对于从数据中构建图的方式非常敏感。特别是当数据具有邻近的和不平衡的簇时,这些算法在已知的图(如$k$-NN,full-RBF,$\epsilon$-图)上的性能可能会很差。这是因为基于Ratio-Cut(RCut)或normalized cut(NCut)等目标的算法会试图在切割值和簇的大小之间进行权衡,而这些权衡不适用于不平衡的数据。我们提出了一种新颖的图分割框架,通过自适应调节$k$-NN图中的节点度来参数化一族图。然后,我们提出了一种模型选择方案,选择通过最小切割值分隔的大小可调的簇。我们的框架能够适应不同级别的数据不平衡,并可以自然地用于小簇检测。通过极限切割分析,我们在理论上证明了我们的思路。在合成和真实数据集上进行的无监督和半监督实验表明了我们方法的优越性。

作者:Jing Qian and Venkatesh Saligrama

论文ID:1302.5134

分类:Machine Learning

分类简称:stat.ML

提交时间:2013-02-22

PDF 下载: 英文版 中文版pdf翻译中