聚类能够与其簇的规模亚线性扩展吗?基于变分EM的GMMs和k-means加速
摘要:一种标准 k-均值(即Lloyd 算法)或标准高斯混合模型(GMM)的期望最大化算法(EM)迭代与聚类中心数 C、数据点数 N 和数据维度 D 呈线性关系。在本研究中,我们探讨了在运行时,k-均值或GMM 的 EM 算法的一次迭代是否可以以次线性方式与 C 成比例缩放,同时改进聚类目标仍然有效。我们使用的复杂性降低工具是变分 EM,它通常用于使具有指数级隐藏状态的生成模型的训练变得可行。在这里,我们应用了关于截断变分 EM 的新理论结果,以使可行的聚类算法更加高效。基本思想是使用部分变分 E 步骤,将全E步骤所需的线性复杂性 O(NCD) 降低到次线性复杂性。我们的主要观察结果是,C的线性依赖关系可以减少到与聚类邻域关系相关的一个更小的参数 G 的依赖关系上。我们关注两种聚类的部分变分 EM 版本:变分 GMM,缩放为 O(NG^2D);变分 k-均值,每次迭代缩放为 O(NGD)。实证结果表明,这些算法仍然需要相当数量的迭代,才能将聚类目标改进到与 k-均值相同的值。因此,在具有许多聚类的数据中,我们观察到计算需求净减少了两到三个数量级。更一般地,我们的结果为聚类能够以次线性方式与 C 缩放提供了大量实证证据。
作者:Dennis Forster, J"org L"ucke
论文ID:1711.03431
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-04-18