标签在半监督学习中是否具有信息性?——估计和利用缺失数据机制
摘要:半监督学习是一种利用无标签数据来改进机器学习模型的强大技术,但其受到“信息性”标签的影响,即某些类别更有可能被标记。在缺失数据的文献中,这种标签被称为非随机缺失。本文提出了一种新方法来解决这个问题,方法是估计缺失数据机制,并使用倒数倾向权重来消除任何半监督学习算法的偏差,包括使用数据增强的算法。我们还提出了一个似然比检验来评估标签是否确实具有信息性。最后,我们在不同数据集上展示了所提方法的性能,特别是在两个医学数据集上,我们设计了伪现实的缺失数据场景。
作者:Aude Sportisse (CRISAM,3iA C^ote d'Azur, MAASAI, UCA), Hugo Schmutz (CRISAM, TIRO-MATOs, JAD,3iA C^ote d'Azur, MAASAI, UCA), Olivier Humbert (UNICANCER/CAL, TIRO-MATOs, UCA), Charles Bouveyron (MAASAI, CRISAM,3iA C^ote d'Azur, UCA), Pierre-Alexandre Mattei (MAASAI, CRISAM,3iA C^ote d'Azur, UCA)
论文ID:2302.07540
分类:Machine Learning
分类简称:stat.ML
提交时间:2023-02-16