通过定向递归划分对连续标签的数据进行排名-arXiv论文预印本中文版

通过定向递归划分对连续标签的数据进行排名

摘要：连续排序的监督学习问题以连续实值标签 Y 分配给一个可观察的随机变量 X，在特征空间 $mathcal{X}$ 中取值，并且目标是通过一个评分函数 $s:mathcal{X} ightarrow mathbb{R}$ 对所有可能观测 x 进行排序，使得 s(X) 和 Y 的增加或减少具有最高概率。这个问题在一定程度上推广了双/多部分排序，并且找到最优评分函数 s(x) 的任务可以自然地表述为一个专用的函数准则（在这里称为 IROC 曲线）的优化，或者是关于配对 (s(X), Y ) 的 Kendall ${ au}$ 的最大化。从理论上来说，我们描述了这个问题的最优元素，并在适当条件下为评分函数候选类提供了经验 Kendall ${ au}$ 最大化的统计保证。我们还提出了一种适用于经验 IROC 曲线优化的递归统计学习算法，该算法产生一个由有向二进制树完全描述的分段常数评分函数。初步的数值实验突出了回归和连续排序之间的差异，并提供了关于所提标准的经验优化器性能的强有力证据。

作者：Stephan Cl''emenc{c}on, Mastane Achab

论文ID：1801.05772

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-01-18

PDF 下载： 英文版中文版pdf翻译中