经验最优风险量化模型的可信度以用于故障检测-arXiv论文预印本中文版

经验最优风险量化模型的可信度以用于故障检测

摘要：AI系统中的故障检测（FD）是部署安全关键任务的重要保障。FD性能的常见评估方法是风险覆盖（RC）曲线，它揭示了数据覆盖率和接受数据性能之间的权衡。通过计算RC曲线下的区域来量化RC曲线是一种常见的方法。然而，这个指标无法说明任何方法对于FD的适用性，也无法说明最佳覆盖率应该是多少。由于FD的目标是在减少数据丢弃的同时实现更高的性能，使用部分覆盖率来评估，即排除最不确定的样本，比完全覆盖更直观和有意义。此外，在覆盖率中存在一个理论上能够实现理想性能的最佳点。我们提出了过量最佳RC曲线下的面积（E-AUoptRC），包括从最佳点到完全覆盖的覆盖区域。此外，最佳点的模型性能可以代表模型的学习能力和校准性。我们将其提出为信任指数（TI），作为对整体模型准确性的补充评估指标。我们对三个基准图像数据集进行了广泛的实验，使用了十个变体的Transformer和CNN模型。我们的结果表明，我们提出的方法可以更好地反映模型的值得信赖程度，而不仅仅是现有评估指标。我们进一步观察到，总体准确性高的模型并不总是产生高的TI，这表明提出Trust Index作为对模型整体准确性的补充指标的必要性。代码可在以下链接找到：https://github.com/AoShuang92/optimal_risk。

作者：Shuang Ao, Stefan Rueger, Advaith Siddharthan

论文ID：2308.03179

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-08-08

PDF 下载： 英文版中文版pdf翻译中