一个用于从正例和未标记样本中学习的Bagging SVM

摘要:学习二进制分类器的问题,从一个训练集中选择正例和未标记例子,在归纳和传递性的设置中。这个问题通常被称为PU学习,与标准的监督分类问题不同,因为训练集中没有负例。在许多应用中,如信息检索或基因排序,这对于共享特定属性的感兴趣数据集来说是一种普遍的情况,并且我们希望从一个大型且易于获取的未标记数据池中自动检索共享相同属性的其他数据。我们提出了一种概念上简单的方法,类似于装袋法,来解决归纳和传递性PU学习问题,方法是将它们转化为一系列从未标记集的随机子样本中区分已知正例的监督二进制分类问题。我们在模拟和真实数据上经验性地证明了该方法的相关性,该方法在性能上至少与现有方法相当,并且速度更快。

作者:Fantine Mordelet (CBIO), Jean-Philippe Vert (CBIO)

论文ID:1010.0772

分类:Machine Learning

分类简称:stat.ML

提交时间:2010-10-06

PDF 下载: 英文版 中文版pdf翻译中