高度相关预测因子的回归收缩和分组(使用HORSES)
摘要:高维数据分析中,识别变量的同质子群可能是具有高度相关预测因子的挑战性任务。我们提出了一种新的方法,称为具有收缩和相等选择的六边形操作员回归(HORSES),可以同时选择正相关变量并将它们识别为预测性簇。这是通过带有正则化的约束最小二乘问题实现的,其包括用于系数的L1惩罚和用于系数的配对差异的另一个L1惩罚的线性组合。这种惩罚函数的规定促进了正相关预测因子的分组以及稀疏解。我们构建了一个高效的算法来实现HORSES程序。通过模拟实验证明,所提出的方法在预测误差和简洁性方面优于其他变量选择方法。该技术在两个数据集上进行了演示,一个是来自阿巴拉契亚地区土壤分析的小数据集,另一个是来自近红外光谱学研究的高维数据集,展示了该方法的灵活性。
作者:Woncheol Jang, Johan Lim, Nicole A. Lazar, Ji Meng Loh, Donghyeon Yu
论文ID:1302.0256
分类:Machine Learning
分类简称:stat.ML
提交时间:2013-02-04