基于不完整数据的多个未知类别高风险分类-arXiv论文预印本中文版

基于不完整数据的多个未知类别高风险分类

摘要：高风险分类是指在错误预测错误类别非常严重的分类问题中，但将其归类为“未知”是可接受的。我们认为，为了从分析中获得最多的信息，这些问题要求我们给出多个未知类别。使用不完美的数据是指具有大量缺失值，大噪声方差和数据中的一些错误的协变量。高风险分类和不完美数据的组合在实践中非常常见，但使用当前方法很难处理。我们提出了一个单类分类器(OCC)来解决这个问题，并称之为NBP。该分类器基于朴素贝叶斯，易于实现和解释。我们展示了NBP在预测性能和基于不完美数据的高风险分类方面都表现出良好的效果。我们提出的模型非常简单；它只是基于密度估计的一个OCC。然而，我们一直感到我们研究的应用分类问题与我们用于分类的理论和模型之间存在很大差距，而该模型填补了这一差距。我们的主要贡献是为什么这个模型是一个好方法的动机，并希望这篇论文能够激发进一步的发展。

作者：Haakon Bakka

论文ID：2304.13344

分类：Applications

分类简称：stat.AP

提交时间：2023-04-27

PDF 下载： 英文版中文版pdf翻译中