在线集成中利用组件分类器的线性独立性:优化大小和预测准确性
摘要:团队,在处理大数据时,利用一组分类器来共同提高分类准确性的问题。然而,尽管人们普遍认为集成规模与其预测准确性之间存在关系,但确切的这种关系的本质仍然未知。我们引入了一种新颖的视角,根源于分类器投票的线性独立性,以分析集成规模和预测准确性之间的相互作用。这个框架揭示了一个理论性的联系,从而提出了基于这种关系的集成规模。我们的研究基于一个几何框架,并发展了一系列定理。这些定理阐明了线性依赖在构建集成中的作用。我们提出了一种确定最小集成规模的方法,以确保组成分类器之间的线性独立投票的目标概率。通过结合真实和合成数据集,我们的实证结果表明了一个趋势:增加分类器的数量可以提高准确性,正如我们的理论洞察所预测的那样。然而,我们还发现了一个递减收益点,超过该点,额外的分类器在准确性方面提供的改进将变得有限。令人惊讶的是,对于某些数据集,计算得出的理想集成规模与实证结果不符,强调了其他因素的影响。这项研究为进一步研究统治集成设计的复杂动力学提供了途径,并为实际场景中构建高效和有效的集成提供了指导。
作者:Enes Bektas and Fazli Can
论文ID:2308.14175
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-29