具有分类预测变量的S估计的非奇异子采样
摘要:具有连续预测变量的鲁棒线性回归的S估计算法的一个重要部分是随机子采样。对于只有连续预测变量的问题,简单的随机子采样是一种可靠的方法,用于生成初始系数估计值,然后可以进一步改进。然而,对于具有分类预测变量的数据,随机子采样通常不起作用,从而限制了对一个本来很好的估计器的使用。这也使得对于鲁棒线性回归的估计器的选择依赖于预测变量的类型,这在实践中是不必要的麻烦。对于具有分类预测变量的数据,随机子采样经常生成奇异的子样本。由于这些子样本无法用于计算系数估计值,它们必须被丢弃。这使得随机子采样变慢,特别是如果某些级别的分类预测变量具有较低的频率,并且使得对于这些问题的算法不可行。本文介绍了一种改进的子采样算法,它只生成非奇异的子样本。我们称之为非奇异子采样。对于具有连续变量的数据,它和简单随机子采样一样快,但对于具有分类预测变量的数据来说要快得多。这是通过使用修改的LU分解算法来实现的,该算法结合了样本的生成和最小二乘问题的求解。
作者:Manuel Koller
论文ID:1208.5595
分类:Computation
分类简称:stat.CO
提交时间:2012-08-29