随机森林对非针对性数据污染的鲁棒性:一种基于集成的方法

摘要:随着机器学习的普及,机器学习模型正在不断提升决策过程,并在某些任务中甚至超越了人类。然而,在模型和相应预测的安全性方面,并没有与预测质量取得相应的进展,训练集的部分扰动(污染)可能严重破坏模型的准确性。在过去的十年里,对污染攻击和防御的研究引起了越来越多的关注,导致了几种有望增强机器学习鲁棒性的解决方案。其中,基于集成的防御方法通过在训练集的不同部分训练不同的模型,然后对它们的预测进行聚合,提供了较强的理论保证,但代价是线性增加的。令人惊讶的是,基于集成的防御方法在增强随机森林模型的鲁棒性方面没有加以应用,而这种方法对基本模型没有任何限制。本文旨在填补这一空白,设计和实施一种新的基于哈希的集成方法,以保护随机森林免受非定向、随机的污染攻击。通过广泛的实验评估,衡量了我们方法在各种攻击下的性能,以及资源消耗和性能方面的可持续性,并将其与基于随机森林的传统模块化模型进行了比较。最后的讨论介绍了我们的主要发现,并将我们的方法与针对随机森林的现有污染防御方法进行了比较。

作者:Marco Anisetti, Claudio A. Ardagna, Alessandro Balestrucci, Nicola Bena, Ernesto Damiani, Chan Yeob Yeun

论文ID:2209.14013

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中