使用正交编码矩阵解决多类问题
摘要:错误纠正码在将二进制分类推广到多类分类的过程中是常见的方法。错误纠正码可以通过多种方式进行优化,例如使它们正交。在这里,我们使用三种类型的二元分类器在七个不同的数据集上测试两种类型的正交错误纠正码,并将它们与另外三种多类方法进行比较:1对1,一对其余和随机错误纠正码。第一种类型的正交错误纠正码中,码字不包含0,这种方法可以快速简单地求解概率。如最近的文献预测的那样,正交错误纠正码总是比随机错误纠正码更准确。不确定系数(U.C.)的改善范围在0.4-17.5\%(绝对值在0.004-0.139之间),而Brier分数的改善范围在0.7-10.7\%之间。不幸的是,正交错误纠正码很少比1对1更准确。当这些方法与逻辑回归配对时,差异最大,正交错误纠正码从未超过1对1。当这些方法与支持向量机配对时,损失较小,不确定系数的增加最高为1.5\%(相对值),Brier分数的增加最高为6.5\%。当与线性分类器配对时,正交错误纠正码始终是五种多类方法中最快的。当与分段线性分类器配对时,使用正交错误纠正码的分类始终比其他方法更准确,而且比1对1更快。而与1对1相比,这里的损失更大,最高为1.9\%(绝对值为0.017)的不确定系数和39\%的Brier分数。速度提升的增益介于1.1\%和100\%以上之间。速度提升是否值得牺牲准确性将取决于具体应用。
作者:Peter Mills
论文ID:1801.09055
分类:Machine Learning
分类简称:stat.ML
提交时间:2023-05-18