标签在半监督学习中是否具有信息性？——估计和利用缺失数据机制-arXiv论文预印本中文版

标签在半监督学习中是否具有信息性？——估计和利用缺失数据机制

摘要：半监督学习是一种利用无标签数据来改进机器学习模型的强大技术，但其受到“信息性”标签的影响，即某些类别更有可能被标记。在缺失数据的文献中，这种标签被称为非随机缺失。本文提出了一种新方法来解决这个问题，方法是估计缺失数据机制，并使用倒数倾向权重来消除任何半监督学习算法的偏差，包括使用数据增强的算法。我们还提出了一个似然比检验来评估标签是否确实具有信息性。最后，我们在不同数据集上展示了所提方法的性能，特别是在两个医学数据集上，我们设计了伪现实的缺失数据场景。

作者：Aude Sportisse (CRISAM,3iA C^ote d'Azur, MAASAI, UCA), Hugo Schmutz (CRISAM, TIRO-MATOs, JAD,3iA C^ote d'Azur, MAASAI, UCA), Olivier Humbert (UNICANCER/CAL, TIRO-MATOs, UCA), Charles Bouveyron (MAASAI, CRISAM,3iA C^ote d'Azur, UCA), Pierre-Alexandre Mattei (MAASAI, CRISAM,3iA C^ote d'Azur, UCA)

论文ID：2302.07540

分类：Machine Learning

分类简称：stat.ML

提交时间：2023-02-16

PDF 下载： 英文版中文版pdf翻译中