通过定向递归划分对连续标签的数据进行排名
摘要:连续排序的监督学习问题以连续实值标签 Y 分配给一个可观察的随机变量 X,在特征空间 $mathcal{X}$ 中取值,并且目标是通过一个评分函数 $s:mathcal{X} ightarrow mathbb{R}$ 对所有可能观测 x 进行排序,使得 s(X) 和 Y 的增加或减少具有最高概率。这个问题在一定程度上推广了双/多部分排序,并且找到最优评分函数 s(x) 的任务可以自然地表述为一个专用的函数准则(在这里称为 IROC 曲线)的优化,或者是关于配对 (s(X), Y ) 的 Kendall ${ au}$ 的最大化。从理论上来说,我们描述了这个问题的最优元素,并在适当条件下为评分函数候选类提供了经验 Kendall ${ au}$ 最大化的统计保证。我们还提出了一种适用于经验 IROC 曲线优化的递归统计学习算法,该算法产生一个由有向二进制树完全描述的分段常数评分函数。初步的数值实验突出了回归和连续排序之间的差异,并提供了关于所提标准的经验优化器性能的强有力证据。
作者:Stephan Cl''emenc{c}on, Mastane Achab
论文ID:1801.05772
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-01-18