随机森林:一些方法论洞察

摘要:随机森林在分类和回归问题中越来越受欢迎,本文从实证的角度对其进行了研究。首先,确认了使用随机森林的一些建议,并在标准问题和高维问题上提出了一些补充意见。但本文的主要贡献有两个方面:一是提供关于基于随机森林的变量重要性指数行为的一些洞见;二是提出了研究变量选择的两个经典问题的方法。第一个问题是找到重要的解释变量,第二个问题是限制性的,即设计一个好的预测模型。该策略包括使用随机森林重要性评分进行解释变量排序和逐步递增引入变量的策略。

作者:Robin Genuer (LM-Orsay), Jean-Michel Poggi (LM-Orsay), Christine Tuleau (JAD)

论文ID:0811.3619

分类:Machine Learning

分类简称:stat.ML

提交时间:2008-11-24

PDF 下载: 英文版 中文版pdf翻译中