通过个体校准实现图上稀有类别分析的可靠性
摘要:稀有类别在许多现实世界的网络中广泛存在,并在各种高风险应用中起着关键作用,包括金融欺诈检测、网络入侵检测和罕见疾病诊断。稀有类别分析(RCA)是指在高度不平衡的数据分布中检测、刻画和理解少数类别的行为的任务。虽然现有大多数关于RCA的工作都集中在改善预测性能上,但一些基本的研究问题迄今为止很少受到关注和探索:预测模型在稀有类别分析中的置信度或不确定性如何?我们如何量化学习过程中的不确定性并实现可靠的稀有类别分析? 为了回答这些问题,我们首先调查了现有RCA方法中的误校准问题。实证结果表明,最先进的RCA方法在预测少数类别时往往过分自信,在预测多数类别时则缺乏自信。受到这一观察的启发,我们提出了一种新颖的个体校准框架,称为CALIRARE,用于缓解RCA的独特挑战,从而实现可靠的稀有类别分析。特别地,为了量化RCA中的不确定性,我们开发了一种节点级别的不确定性量化算法,用于建模具有高不确定性的重叠支持区域;为了处理误校准计算中少数类别的稀有性,我们将基于分布的校准度量推广到实例级别,并提出了第一个基于图的个体校准度量,称为预期个体校准误差(EICE)。我们在包括稀有类别刻画和模型校准任务在内的真实数据集上进行了广泛的实验评估,结果表明了我们提出的框架的重要性。
作者:Longfeng Wu, Bowen Lei, Dongkuan Xu, Dawei Zhou
论文ID:2307.09858
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-20