无约束下的主特征子空间分布式学习

摘要:分布式主成分分析(PCA)已经研究用于处理数据存储在多台机器上的情况,而通信成本或隐私问题禁止在中心位置计算PCA。然而,在相关文献中的亚高斯假设在实际应用中具有局限性,金融和宏观经济领域常见异常点或重尾数据。在本文中,我们提出一种分布式算法,用于估计主要特征空间,而对底层分布没有任何矩约束。我们在椭圆家族框架下研究了这个问题,并采用样本多变量Kendall'tau矩阵从所有子机器中提取特征空间估计器,可以视为Grassman流形中的点。然后将这些点的“中心”作为主要特征空间的最终分布式估计器。我们研究了分布式估计器的偏差和方差,并推导出其收敛速度,这取决于散布矩阵的有效秩和特征间隔,以及子机器的数量。我们展示了分布式估计器表现得像我们完全访问整个数据。模拟研究表明,对于轻尾数据,分布式算法的性能与现有算法相当,而对于重尾数据则具有很大优势。我们还将算法扩展到椭圆因子模型的分布式学习,并通过对宏观经济数据集的实际应用验证了其实用性。

作者:Yong He, Zichen Liu, Yalin Wang

论文ID:2204.14049

分类:Computation

分类简称:stat.CO

提交时间:2022-05-02

PDF 下载: 英文版 中文版pdf翻译中