类别不是聚类:改进基于标签的降维评估

摘要:评估降维嵌入可靠性的常见方法是量化标签类别在嵌入空间中形成紧凑、相互分离聚类的程度。这种方法基于一个假设,即类别在原始高维空间中仍然是清晰的聚类。然而,在现实中这个假设可能会被违反;一个类别可以被分成多个分离的聚类,多个类别也可以合并成一个聚类。因此,我们不能总是保证使用类别标签进行评估的可信度。在本文中,我们引入了两个新的质量指标--标签可靠性和标签连续性(Label-T&C),用于改进基于类别标签的降维评估过程。标签可信度和连续性通过(1)估计类别在原始和嵌入空间中形成聚类的程度和(2)评估两者之间的差异来工作,而不是假设类别在原始空间中是良好聚类的。定量评估表明,Label-T&C在评估降维嵌入保留聚类结构准确性方面优于广泛使用的降维评估指标(如可信度和连续性、Kullback-Leibler散度),并且可扩展。此外,我们提供了案例研究,证明了Label-T&C可成功用于揭示降维技术及其超参数的内在特性。

作者:Hyeon Jeon, Yun-Hsin Kuo, Micha"el Aupetit, Kwan-Liu Ma, and Jinwook Seo

论文ID:2308.00278

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-14

PDF 下载: 英文版 中文版pdf翻译中