通过Coresets在规模上训练高斯混合模型-arXiv论文预印本中文版

通过Coresets在规模上训练高斯混合模型

摘要：如何在大规模数据集上训练统计混合模型？在这项工作中，我们展示了如何为高斯混合构建核心集，核心集是数据的加权子集，它保证适合核心集的模型也能很好地适用于原始数据集。我们展示了令人惊讶的是，高斯混合模型允许核心集的大小在维度和混合组件数量上为多项式，同时与数据集的大小无关。因此，可以利用计算密集的算法在一个显著较小的数据集上计算出一个很好的近似。更重要的是，这种核心集能够在分布式和流式环境下高效构建，并且不对数据生成过程施加限制。我们的结果依赖于将统计估计简化为计算几何问题的新方法，以及高斯混合的新组合复杂性结果。在几个真实数据集上的实证评估表明，我们基于核心集的方法可以在训练时间上显著减少，并且近似误差可以忽略不计。

作者：Mario Lucic and Matthew Faulkner and Andreas Krause and Dan Feldman

论文ID：1703.08110

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-01-17

PDF 下载： 英文版中文版pdf翻译中