机器遗忘用于因果推断
摘要:机器学习模型在从数据中进行预测和洞察中起着重要作用,并且越来越多地被用于因果推断。为了保护用户的隐私,使模型能够忘记关于给定用户的一些学习/捕获信息是很重要的(机器遗忘)。本文引入了机器遗忘的概念,用于因果推断,特别是倾向得分匹配和治疗效应估计,旨在根据上述遗忘要求改进机器学习模型在因果分析中的性能。本文提出了一种使用基于神经网络的倾向得分模型进行机器遗忘的方法论。研究中使用的数据集是Lalonde数据集,这是一个广泛用于评估职业培训项目的有效性即治疗效应的数据集。方法包括在原始数据集上训练初步的倾向得分模型,然后根据倾向得分匹配有选择地删除实例和匹配实例对来创建遗忘集。这些遗忘集用于评估重新训练的模型,从而消除不需要的关联。模型的实际重新训练是使用保留集进行的。实验结果证明了机器遗忘方法的有效性。遗忘前后倾向得分的分布和直方图分析提供了关于遗忘过程对数据的影响的洞察。本研究代表了将机器遗忘技术应用于因果推断的首次尝试。
作者:Vikas Ramachandra and Mohit Sethi
论文ID:2308.13559
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-29