通过直接估计密度导数比率的模式寻求聚类和密度脊线估计-arXiv论文预印本中文版

通过直接估计密度导数比率的模式寻求聚类和密度脊线估计

摘要：密度函数背后的模式和峰值是有用的几何特征。寻找模式的聚类通过将数据样本与最近的模式关联来分配聚类标签，而密度脊线的估计则使我们能够找到隐藏在数据中的低维结构。寻找模式的聚类和密度脊线估计中的一个关键技术挑战是准确估计一阶和二阶密度导数与密度的比值。一种朴素的方法是分为三步：首先估计数据密度，然后计算其导数，最后计算它们的比值。然而，这种三步方法可能不可靠，因为一个好的密度估计器并不一定意味着一个好的密度导数估计器，并且通过估计的密度进行除法可能会显著放大估计误差。为了解决这些问题，我们提出了一种新的密度导数比率的估计器。所提出的估计器不涉及密度估计，而是直接近似任意阶数的密度导数的比值。此外，我们建立了所提出的估计器的收敛速度。基于所提出的估计器，我们开发了寻找模式的聚类和密度脊线估计的新方法，并且还确定了分别收敛到潜在密度的模式和脊线的收敛速度。最后，我们通过实验证明，所开发的方法在相对高维数据上明显优于现有方法。

作者：Hiroaki Sasaki, Takafumi Kanamori, Aapo Hyv"arinen, Gang Niu, Masashi Sugiyama

论文ID：1707.01711

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-04-03

PDF 下载： 英文版中文版pdf翻译中