具有分类预测变量的S估计的非奇异子采样-arXiv论文预印本中文版

具有分类预测变量的S估计的非奇异子采样

摘要：具有连续预测变量的鲁棒线性回归的S估计算法的一个重要部分是随机子采样。对于只有连续预测变量的问题，简单的随机子采样是一种可靠的方法，用于生成初始系数估计值，然后可以进一步改进。然而，对于具有分类预测变量的数据，随机子采样通常不起作用，从而限制了对一个本来很好的估计器的使用。这也使得对于鲁棒线性回归的估计器的选择依赖于预测变量的类型，这在实践中是不必要的麻烦。对于具有分类预测变量的数据，随机子采样经常生成奇异的子样本。由于这些子样本无法用于计算系数估计值，它们必须被丢弃。这使得随机子采样变慢，特别是如果某些级别的分类预测变量具有较低的频率，并且使得对于这些问题的算法不可行。本文介绍了一种改进的子采样算法，它只生成非奇异的子样本。我们称之为非奇异子采样。对于具有连续变量的数据，它和简单随机子采样一样快，但对于具有分类预测变量的数据来说要快得多。这是通过使用修改的LU分解算法来实现的，该算法结合了样本的生成和最小二乘问题的求解。

作者：Manuel Koller

论文ID：1208.5595

分类：Computation

分类简称：stat.CO

提交时间：2012-08-29

PDF 下载： 英文版中文版pdf翻译中