Binarsity：线性监督学习中对独热编码特征的惩罚-arXiv论文预印本中文版

Binarsity：线性监督学习中对独热编码特征的惩罚

摘要：大规模线性监督学习问题的研究：具备大量连续特征的情景下。结合连续特征的常用技术之一——一位有效编码以及称为“二次稀疏”的新型罚函数，本文提出了一种组合方法。罚函数使用总变差正则化和额外线性约束来对一位有效编码的二元特征组进行惩罚，从而在模型权重上产生两个有趣的性质：分段常数和最终的块稀疏性。提出了广义线性模型的非渐近正则性损失函数。此外，在稀疏加法模型假设下，证明了我们的方法在此情景下与现有方法相媲美。数值实验证明了我们的方法在多个数据集上的良好性能。值得注意的是，我们的方法的计算复杂度与标准$ell\_1$罚函数相当。

作者：Mokhtar Z. Alaya, Simon Bussy, St''ephane Ga"iffas, Agathe Guilloux

论文ID：1703.08619

分类：Machine Learning

分类简称：stat.ML

提交时间：2019-01-10

PDF 下载： 英文版中文版pdf翻译中