经验最优风险量化模型的可信度以用于故障检测

摘要:AI系统中的故障检测(FD)是部署安全关键任务的重要保障。FD性能的常见评估方法是风险覆盖(RC)曲线,它揭示了数据覆盖率和接受数据性能之间的权衡。通过计算RC曲线下的区域来量化RC曲线是一种常见的方法。然而,这个指标无法说明任何方法对于FD的适用性,也无法说明最佳覆盖率应该是多少。由于FD的目标是在减少数据丢弃的同时实现更高的性能,使用部分覆盖率来评估,即排除最不确定的样本,比完全覆盖更直观和有意义。此外,在覆盖率中存在一个理论上能够实现理想性能的最佳点。我们提出了过量最佳RC曲线下的面积(E-AUoptRC),包括从最佳点到完全覆盖的覆盖区域。此外,最佳点的模型性能可以代表模型的学习能力和校准性。我们将其提出为信任指数(TI),作为对整体模型准确性的补充评估指标。我们对三个基准图像数据集进行了广泛的实验,使用了十个变体的Transformer和CNN模型。我们的结果表明,我们提出的方法可以更好地反映模型的值得信赖程度,而不仅仅是现有评估指标。我们进一步观察到,总体准确性高的模型并不总是产生高的TI,这表明提出Trust Index作为对模型整体准确性的补充指标的必要性。代码可在以下链接找到:https://github.com/AoShuang92/optimal_risk。

作者:Shuang Ao, Stefan Rueger, Advaith Siddharthan

论文ID:2308.03179

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-08-08

PDF 下载: 英文版 中文版pdf翻译中