超高维度多输出学习中的同时正交匹配追踪:一种确定性筛选方法
摘要:在超高维多任务回归问题中,我们提出了一种新颖的同时正交匹配追踪(S-OMP)方法,用于稀疏变量选择。变量的筛选方法是一种有效且具有可扩展性的方式,可以从所有变量中去除许多无关变量,同时保留所有相关变量。S-OMP可以应用于具有数十万个变量的问题,一旦变量的数量减少到可管理的大小,可以使用更耗时的方法来识别每个回归输出的相关变量。据我们所知,这是首次尝试利用多个输出的相关性来进行快速筛选相关变量。作为我们的主要理论贡献,我们证明了在渐近意义下,S-OMP能够保证将超高数量的变量减少到样本大小以下,而不会失去真正的相关变量。我们还提供了正式的证据,证明修改后的贝叶斯信息准则(BIC)可用于有效确定S-OMP中的迭代次数。我们还提供了关于多个回归输出联合进行变量选择的好处的经验性证据,而不是分别对每个输出进行变量选择。S-OMP的有限样本性能在大量的模拟研究和遗传关联映射问题上得到了证明。关键词:自适应Lasso;贪婪前向回归;正交匹配追踪;多输出回归;多任务学习;同时正交匹配追踪;确保筛选;变量选择
作者:Mladen Kolar and Eric P. Xing
论文ID:1012.3880
分类:Machine Learning
分类简称:stat.ML
提交时间:2010-12-20