特征相关性测试:HARVEST算法

摘要:高维数据集中有很少比例的相关特征在标准统计方法中面临严峻挑战。我们开发了一种新的方法(HARVEST),可以直接应用,尽管计算密集度较高。该算法可用于预先筛选大量特征,以确定哪些可能有用。基本思想是在许多其他特征的随机子集中评估每个特征。HARVEST的前提假设是,无论包括哪些其他特征,无关特征都不能增加真实的预测价值。基于这个想法,我们推导出了一个简单的特征相关性统计检验。迄今为止的实证分析和模拟表明,HARVEST算法在科学和商业的预测分析中非常有效。

作者:Herbert Weisberg, Victor Pontes, and Mathis Thoma

论文ID:1710.00210

分类:Machine Learning

分类简称:stat.ML

提交时间:2018-03-01

PDF 下载: 英文版 中文版pdf翻译中