探索集成机器学习中的公平性及其组成-arXiv论文预印本中文版

探索集成机器学习中的公平性及其组成

摘要：公平组合中的机器学习：评估和设计公平复合机器学习模型对于少数群体的种族、性别、年龄等方面具有公平性影响。许多最近的研究提出了测量和减少机器学习模型算法偏差的方法。现有的方法主要关注单个基于分类器的机器学习模型。然而，现实世界中的机器学习模型通常由多个独立或依赖学习器组成，例如随机森林，其中公平性以一种非平凡的方式组合。公平在组合中如何组成？学习器对组合的最终公平性有何影响？公平学习器能否导致不公平的组合？此外，研究表明超参数影响机器学习模型的公平性。由于超参数影响了在不同类别的组合中学习器的组合方式，组合模型的超参数更加复杂。理解组合超参数对公平性的影响将有助于开发人员设计公平的组合模型。目前，我们尚不完全了解不同组合算法的这些内容。在本文中，我们全面研究了流行的现实世界组合模型：bagging、boosting、stacking和voting。我们从Kaggle收集了168个组合模型，并在四个常用的公平数据集上进行了测试。我们使用现有的公平度量方法来了解公平性的组成方式。结果显示，通过设计，组合模型可以更加公平，而无需使用减少偏差的技术。我们还确定了公平性组成与数据特征之间的相互作用，以指导公平组合模型的设计。最后，我们的基准可以用于进一步研究公平组合模型。据我们所知，这是关于组合中公平性组成的文献中提到的首个也是最大的研究之一。

作者：Usman Gohar, Sumon Biswas, Hridesh Rajan

论文ID：2212.04593

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-10

PDF 下载： 英文版中文版pdf翻译中