机器学习中评估数据分割质量的诊断方法

摘要:机器学习中,常规做法是将数据分成训练集和测试集。基于训练数据构建一个提出的模型,然后使用测试数据评估模型的性能。通常,数据会根据随机方式分割成训练集和测试集。这种以随机分割为基础的方法效果不错,但往往不能很好地评估模型在训练和测试数据输入扰动下的泛化能力。通过实验,发现当固定流程的新迭代从模型构建到训练和测试被执行时,会报告出过度乐观的性能估计,这实际上体现了输入数据中随机性的敏感性。由于模型性能的一致性主要取决于数据分割,所以在这种情况下,对于模型鲁棒性的任何结论都是不可靠的。我们提出了一种诊断方法,以定量评估给定分割的真实随机性,并为推断模型对输入数据的不敏感性提供了基础。我们使用基于马氏平方距离的自定义数据驱动距离度量来将模型的鲁棒性与随机分割关联起来,模拟马尔科夫链蒙特卡洛模拟来计算距离度量的概率分布,并通过单侧假设检验计算阈值。我们使用各种真实数据集来证明和展示所提出方法的性能,并使用提出方法比较现有的数据分割方法的性能。

作者:Eklavya Jain, J. Neeraja, Buddhananda Banerjee, Palash Ghosh

论文ID:2206.11721

分类:Computation

分类简称:stat.CO

提交时间:2022-06-24

PDF 下载: 英文版 中文版pdf翻译中