多元数据流中的变化检测:似然和可检测性损失

摘要:当数据维度扩展时,我们处理多元数据流中检测变化的问题,并研究变化检测方法在面对数据维度扩展时所面临的困难。具体而言,我们考虑一种通用的方法,通过比较数据流对数似然分布在不同时间窗口上的差异来检测变化。尽管这种方法构成了多种变化检测方法的框架,但它在数据维度扩展时的有效性从未被研究过,这正是我们论文的目标。我们表明,变化的大小可以通过前后变化分布之间的对称Kullback-Leibler散度在自然上进行测量,并且当数据维度增加时,同一大小的变化的可检测性降低。我们将这个问题称为“检测损失”,这是由于对数似然方差与数据维度之间的线性关系引起的。我们在高斯分布数据流上进行的分析推导了检测损失,并经验性地证明了这个问题在现实世界数据集上也存在,并且即使在低数据维度下(比如,10)也可能造成损害。

作者:Cesare Alippi, Giacomo Boracchi, Diego Carrera, Manuel Roveri

论文ID:1510.04850

分类:Machine Learning

分类简称:stat.ML

提交时间:2017-12-04

PDF 下载: 英文版 中文版pdf翻译中