质量体积曲线与异常排名
摘要:多变量无标签观测的异常程度排序问题被看作是一个无监督的统计学习任务。在一维情况下,通过尾部估计技术来解决这个问题:视单变量观测为距离基本概率分布的尾部越远,其异常程度越大。我们希望能够拥有一个标量值的“评分”函数,用于比较多变量观测的异常程度。本文通过一种新的函数性能准则(Mass Volume curve,简称MV curve)将评分异常的问题表述为一种M-估计问题,其最优元素在概率密度函数支持域的几乎每个地方严格递增变换。我们首先研究了给定评分函数的MV curve的统计估计,并提供了一种使用平滑引导法建立置信区间的策略。接下来,我们解决了在分段常量评分函数集合上的函数准则优化问题。这归结为估计一系列由数据自适应地选择水平的经验最小体积集,以适应最优MV curve的变化,同时控制由阶梯曲线逼近所产生的偏差。然后,我们建立了经验评分函数的MV curve与最优MV curve之间的上确界差异的泛化界限。
作者:Stephan Cl''emenc{c}on (LTCI, TSI), Albert Thomas (LTCI)
论文ID:1705.01305
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-09-05