无约束下的主特征子空间分布式学习-arXiv论文预印本中文版

无约束下的主特征子空间分布式学习

摘要：分布式主成分分析（PCA）已经研究用于处理数据存储在多台机器上的情况，而通信成本或隐私问题禁止在中心位置计算PCA。然而，在相关文献中的亚高斯假设在实际应用中具有局限性，金融和宏观经济领域常见异常点或重尾数据。在本文中，我们提出一种分布式算法，用于估计主要特征空间，而对底层分布没有任何矩约束。我们在椭圆家族框架下研究了这个问题，并采用样本多变量Kendall'tau矩阵从所有子机器中提取特征空间估计器，可以视为Grassman流形中的点。然后将这些点的“中心”作为主要特征空间的最终分布式估计器。我们研究了分布式估计器的偏差和方差，并推导出其收敛速度，这取决于散布矩阵的有效秩和特征间隔，以及子机器的数量。我们展示了分布式估计器表现得像我们完全访问整个数据。模拟研究表明，对于轻尾数据，分布式算法的性能与现有算法相当，而对于重尾数据则具有很大优势。我们还将算法扩展到椭圆因子模型的分布式学习，并通过对宏观经济数据集的实际应用验证了其实用性。

作者：Yong He, Zichen Liu, Yalin Wang

论文ID：2204.14049

分类：Computation

分类简称：stat.CO

提交时间：2022-05-02

PDF 下载： 英文版中文版pdf翻译中