批处理自组织映射在分布数据上使用自适应距离
摘要:分布-值变量的批处理自组织映射算法(DBSOM)研究了该种变量,该种变量以数值支持上的一维概率或频率分布为值。该算法优化的目标函数取决于距离度量的选择。根据数据的性质,$L\_2$ Wasserstein距离被提出作为比较分布的最合适的度量之一。它在分布数据的多个上下文中被广泛使用。传统的批处理自组织映射算法认为所有变量对于SOM的训练同样重要。然而,众所周知,一些变量对这个任务的重要性较低。为了考虑到不同变量的贡献,我们提出了DBSOM算法的自适应版本,通过一个额外的步骤来解决这个问题:为每个分布-值变量自动学习一个相关权重。此外,由于$L\_2$ Wasserstein距离可以分解为两个部分:一个与分布的均值相关,一个与分布的大小和形状相关,还可以自动学习每个测量组件的相关权重,以强调不同估计参数的重要性。实际和合成的分布数据集的示例说明了所提出的DBSOM算法的实用性。
作者:Antonio Irpino, Francisco De Carvalho, Rosanna Verde, Antonio Balzanella
论文ID:1811.06980
分类:Other Statistics
分类简称:stat.OT
提交时间:2019-04-01