标签在半监督学习中是否具有信息性?——估计和利用缺失数据机制

摘要:半监督学习是一种利用无标签数据来改进机器学习模型的强大技术,但其受到“信息性”标签的影响,即某些类别更有可能被标记。在缺失数据的文献中,这种标签被称为非随机缺失。本文提出了一种新方法来解决这个问题,方法是估计缺失数据机制,并使用倒数倾向权重来消除任何半监督学习算法的偏差,包括使用数据增强的算法。我们还提出了一个似然比检验来评估标签是否确实具有信息性。最后,我们在不同数据集上展示了所提方法的性能,特别是在两个医学数据集上,我们设计了伪现实的缺失数据场景。

作者:Aude Sportisse (CRISAM,3iA C^ote d'Azur, MAASAI, UCA), Hugo Schmutz (CRISAM, TIRO-MATOs, JAD,3iA C^ote d'Azur, MAASAI, UCA), Olivier Humbert (UNICANCER/CAL, TIRO-MATOs, UCA), Charles Bouveyron (MAASAI, CRISAM,3iA C^ote d'Azur, UCA), Pierre-Alexandre Mattei (MAASAI, CRISAM,3iA C^ote d'Azur, UCA)

论文ID:2302.07540

分类:Machine Learning

分类简称:stat.ML

提交时间:2023-02-16

PDF 下载: 英文版 中文版pdf翻译中