自我训练：一项调查-arXiv论文预印本中文版

自我训练：一项调查

摘要：半监督算法旨在从少量标记样本和大量未标记样本中学习预测函数。由于这个框架在许多应用中都很重要，所以在学术界和工业界都受到了广泛关注。在现有的技术中，自训练方法在近年来无疑引起了更大的关注。这些模型旨在在低密度区域找到决策边界，而不对数据分布作出额外的假设，并将学习分类器的无符号输出分数或其边界作为置信度的指标。自训练算法的工作原理是通过为大于某个阈值的边界的未标记样本集分配伪标签来迭代地学习分类器。然后，使用伪标记示例来丰富标记训练数据，并与标记训练集一起训练新的分类器。在本文中，我们介绍了二分类和多类分类的自训练方法，以及它们的变体和两种相关方法，即一致性方法和迁移学习。我们使用不同的通用和图像分类基准来检查重要的自训练特征对各种方法的影响，并讨论我们对自训练未来研究的想法。据我们所知，这是对该主题的第一次全面而完整的调查。

作者：Massih-Reza Amini, Vasilii Feofanov, Loic Pauletto, Emilie Devijver, Yury Maximov

论文ID：2202.12040

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-23

PDF 下载： 英文版中文版pdf翻译中