批处理自组织映射在分布数据上使用自适应距离-arXiv论文预印本中文版

批处理自组织映射在分布数据上使用自适应距离

摘要：分布-值变量的批处理自组织映射算法（DBSOM）研究了该种变量，该种变量以数值支持上的一维概率或频率分布为值。该算法优化的目标函数取决于距离度量的选择。根据数据的性质，$L\_2$ Wasserstein距离被提出作为比较分布的最合适的度量之一。它在分布数据的多个上下文中被广泛使用。传统的批处理自组织映射算法认为所有变量对于SOM的训练同样重要。然而，众所周知，一些变量对这个任务的重要性较低。为了考虑到不同变量的贡献，我们提出了DBSOM算法的自适应版本，通过一个额外的步骤来解决这个问题：为每个分布-值变量自动学习一个相关权重。此外，由于$L\_2$ Wasserstein距离可以分解为两个部分：一个与分布的均值相关，一个与分布的大小和形状相关，还可以自动学习每个测量组件的相关权重，以强调不同估计参数的重要性。实际和合成的分布数据集的示例说明了所提出的DBSOM算法的实用性。

作者：Antonio Irpino, Francisco De Carvalho, Rosanna Verde, Antonio Balzanella

论文ID：1811.06980

分类：Other Statistics

分类简称：stat.OT

提交时间：2019-04-01

PDF 下载： 英文版中文版pdf翻译中