大数据的多维标度化

摘要:用于大数据集的多维标度(Multidimensional Scaling,MDS)的一组算法。MDS是一种降维的统计工具,使用一个维度为$n \times n$的距离矩阵作为输入。当$n$很大时,经典算法会遇到计算问题,无法得到MDS配置。在本文中,我们通过三种算法来解决这些问题:分而治之MDS、快速MDS和基于Gower插值的MDS(前两种为原创提议)。这些方法的主要思想是将数据集划分为小片段,经典MDS方法可以在其中工作。为了检验算法的性能并进行比较,我们进行了模拟研究。该研究指出,当$n$很大时,快速MDS和基于Gower插值的MDS是合适的选择。虽然分而治之MDS不像其他两种算法那样快速,但它是捕捉原始数据方差的最佳方法。

作者:Pedro Delicado and Cristian Pachon-Garcia

论文ID:2007.11919

分类:Computation

分类简称:stat.CO

提交时间:2021-08-02

PDF 下载: 英文版 中文版pdf翻译中