在线集成中利用组件分类器的线性独立性：优化大小和预测准确性-arXiv论文预印本中文版

在线集成中利用组件分类器的线性独立性：优化大小和预测准确性

摘要：团队，在处理大数据时，利用一组分类器来共同提高分类准确性的问题。然而，尽管人们普遍认为集成规模与其预测准确性之间存在关系，但确切的这种关系的本质仍然未知。我们引入了一种新颖的视角，根源于分类器投票的线性独立性，以分析集成规模和预测准确性之间的相互作用。这个框架揭示了一个理论性的联系，从而提出了基于这种关系的集成规模。我们的研究基于一个几何框架，并发展了一系列定理。这些定理阐明了线性依赖在构建集成中的作用。我们提出了一种确定最小集成规模的方法，以确保组成分类器之间的线性独立投票的目标概率。通过结合真实和合成数据集，我们的实证结果表明了一个趋势：增加分类器的数量可以提高准确性，正如我们的理论洞察所预测的那样。然而，我们还发现了一个递减收益点，超过该点，额外的分类器在准确性方面提供的改进将变得有限。令人惊讶的是，对于某些数据集，计算得出的理想集成规模与实证结果不符，强调了其他因素的影响。这项研究为进一步研究统治集成设计的复杂动力学提供了途径，并为实际场景中构建高效和有效的集成提供了指导。

作者：Enes Bektas and Fazli Can

论文ID：2308.14175

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中