独立筛选超高维特征的单指数风险率模型
摘要:基于独立的单变量回归模型筛选所有变量的方法在数据集中特征远远多于观测值的情况下具有计算方便的变量选择方法。最近的研究表明,在广义线性模型的情况下,独立筛选可能足以高概率地捕获所有相关特征,即使在超高维度情况下也是如此。然而,目前尚不清楚在响应变量为右删失生存时间时是否能实现这种确定筛选属性。我们提出了一种计算非常高效的生存数据独立筛选方法,可以视为相关性筛选在生存分析中的自然等价物。我们在一类具有超高维度特征的单指数风险率模型中,给出了该方法在确定筛选属性下的条件。同时,我们还描述了一种迭代变体,将筛选与罚函数回归相结合,以处理更复杂的特征协方差结构。通过模拟研究和对真实基因表达数据集的应用评估了这些方法。
作者:Anders Gorst-Rasmussen and Thomas H. Scheike
论文ID:1105.3361
分类:Machine Learning
分类简称:stat.ML
提交时间:2011-08-12