置换基假设检验的持续图的向量摘要

摘要:拓扑数据分析(TDA)技术在过去十年中逐渐受到关注,用于描述数据的形状。近年来,人们对发展统计方法,特别是TDA的假设检验程序越来越感兴趣。从统计角度来看,TDA提供的数据的中心多尺度拓扑描述符——持久图被视为从某种总体或过程中随机抽取的观测值。在这种情况下,关于假设检验的最早的工作之一集中在两组排列为基础的方法上,其中相关的损失函数是根据持久图之间的组内成对瓶颈或Wasserstein距离定义的(Robinson和Turner,2017)。然而,在持久图的大小和数量较大的情况下,该排列检验在计算上较为昂贵。为了解决这个限制,我们考虑使用持久图的向量化功能摘要之间的成对距离作为损失函数。在本文中,我们探索了Betti函数在这方面的实用性,它是持久图的最简单的函数摘要之一。我们介绍了一种基于积分的Betti函数的替代向量化方法,并证明了其与Wasserstein距离的稳定性结果。此外,我们提出了一种新的组标签混洗技术来增加检验的功效。通过几个关于合成数据和实际数据的实验研究,我们表明与基线方法(涉及Wasserstein距离的排列检验)相比,向量化的Betti函数能够得到竞争性的结果。

作者:Umar Islambekov, Hasani Pathirana

论文ID:2306.06257

分类:Machine Learning

分类简称:stat.ML

提交时间:2023-06-13

PDF 下载: 英文版 中文版pdf翻译中