人工智能中的竞赛 —— 使用统计重采样稳健地排名求解器
摘要:竞赛在评估和推进解决人工智能和其他领域的很多问题的最新技术方面起着重要作用。尤其值得注意的是,在人工智能的许多领域,竞赛在引导研究和应用方面有着重大影响,并且在竞赛中排名靠前的解决方案具有相当的权威性。但是,我们能够期望竞赛结果在不同于特定竞赛中使用的问题实例集上具有普适性吗?这是我们在这里使用统计重采样技术进行研究的问题。我们表明,根据竞赛结果的标准解释得出的排名对于基准实例集中即使是微小变化的敏感度非常高,因此不能期望将其推广到来自相同底层实例分布的其他样本中。为了解决这个问题,我们提出了一种基于重采样性能数据的竞赛结果统计分析的新方法。我们的方法产生了竞赛分数的置信区间,以及具有有界误差的统计健壮的解决方案排名。应用于最近的SAT、人工智能规划和计算机视觉竞赛,我们的分析揭示了解决方案性能中常见的统计平局以及与基于简单评分的官方结果相比的排名颠倒情况。
作者:Chris Fawcett, Mauro Vallati, Holger H. Hoos, Alfonso E. Gerevini
论文ID:2308.05062
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-08-10