大数据确定性聚类
摘要:行列式一致聚类是集成聚类中一种有前景和吸引力的选择,其相对于参考质心聚类和k-means来说,是一种很好的替代方案。通过基于行列式点过程或DPP采样,它确保了相似点的子集很少被选择作为质心,更倾向于选择多样性更高的点子集。行列式点过程的采样算法需要对一个Gram矩阵进行特征分解,当数据规模非常大时,这会变得计算密集。这个问题在一致聚类中尤为严重,因为一个给定的聚类算法需要运行多次才能产生最终的一致聚类。我们提出了两种针对大数据集执行行列式一致聚类的高效方案。它们基于稀疏且小的内核矩阵进行DPP采样,其特征值分布接近原始Gram矩阵的特征值分布。
作者:Serge Vicente, Alejandro Murua
论文ID:2102.03954
分类:Computation
分类简称:stat.CO
提交时间:2021-02-09