Pac-Bayesian有监督分类:统计学习的热力学
摘要:自适应监督分类的统计力学工具和信息论工具被引入论文中,基于David McAllester的PACBayesian方法和Vladimir Vapnik的统计学习理论构建了一种分类模型复杂度的局部度量方法。通过对后验概率测度集合进行凸分析,本文展示了如何利用后验分布相对熵与Gibbs后验测度之间的关系获取分类模型复杂度本地度量。然后,本文讨论了相对界限,比较了两个分类规则的泛化误差,并展示了如何用分类模型协方差结构的经验测量来代替Mammen和Tsybakov的边缘假设。我们展示了如何将任意后验分布与Gibbs先验分布关联起来,以相同期望错误率水平详细解释它的有效温度,并展示了如何从数据中估计这个有效温度。结果得到了一个期望错误率收敛适应地根据任何边缘和参数复杂度假设与最佳样本大小的幂。我们描述和研究了基于估计器之间相对界限的“选择方案”,并展示了一种能够处理从一组模型中选择参数模型的两步定位技术。我们展示了如何将得到的归纳环境中的所有结果系统地扩展到转导学习,并利用此来改进Vapnik的泛化界限,并将其扩展到样本由独立的非同分布的模式和标签对组成的情况。最后,我们简要回顾了支持向量机的构造,并展示了如何通过支持向量的数量或通过转导或归纳边缘的值来导出它们的泛化界限的复杂度评估。
作者:Olivier Catoni
论文ID:0712.0248
分类:Machine Learning
分类简称:stat.ML
提交时间:2007-12-04