聚类能够与其簇的规模亚线性扩展吗？基于变分EM的GMMs和k-means加速-arXiv论文预印本中文版

聚类能够与其簇的规模亚线性扩展吗？基于变分EM的GMMs和k-means加速

摘要：一种标准 k-均值（即Lloyd 算法）或标准高斯混合模型（GMM）的期望最大化算法（EM）迭代与聚类中心数 C、数据点数 N 和数据维度 D 呈线性关系。在本研究中，我们探讨了在运行时，k-均值或GMM 的 EM 算法的一次迭代是否可以以次线性方式与 C 成比例缩放，同时改进聚类目标仍然有效。我们使用的复杂性降低工具是变分 EM，它通常用于使具有指数级隐藏状态的生成模型的训练变得可行。在这里，我们应用了关于截断变分 EM 的新理论结果，以使可行的聚类算法更加高效。基本思想是使用部分变分 E 步骤，将全E步骤所需的线性复杂性 O(NCD) 降低到次线性复杂性。我们的主要观察结果是，C的线性依赖关系可以减少到与聚类邻域关系相关的一个更小的参数 G 的依赖关系上。我们关注两种聚类的部分变分 EM 版本：变分 GMM，缩放为 O(NG^2D)；变分 k-均值，每次迭代缩放为 O(NGD)。实证结果表明，这些算法仍然需要相当数量的迭代，才能将聚类目标改进到与 k-均值相同的值。因此，在具有许多聚类的数据中，我们观察到计算需求净减少了两到三个数量级。更一般地，我们的结果为聚类能够以次线性方式与 C 缩放提供了大量实证证据。

作者：Dennis Forster, J"org L"ucke

论文ID：1711.03431

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-04-18

PDF 下载： 英文版中文版pdf翻译中