数据质量对机器学习性能的影响

摘要:现代人工智能(AI)应用需要大量的训练和测试数据。这个需求不仅涉及到这些数据的可用性,还涉及到其质量。例如,不完整、错误或不合适的训练数据可能导致不可靠的模型,进而产生最终的糟糕决策。可信赖的AI应用需要在准确性、完整性、一致性和统一性等多个维度上具有高质量的训练和测试数据。 我们从实证角度探讨了传统数据质量六个维度与十五种广泛使用的机器学习(ML)算法在分类、回归和聚类任务上的性能之间的关系,目标是通过数据质量解释它们的性能。我们的实验根据受到污染数据的AI流水线步骤,将实验分为三种情景:污染的训练数据、测试数据或两者兼有。我们总结了一份详尽的讨论,阐述了我们的观察结果。

作者:Lukas Budach and Moritz Feuerpfeil and Nina Ihde and Andrea Nathansen and Nele Noack and Hendrik Patzlaff and Felix Naumann and Hazar Harmouch

论文ID:2207.14529

分类:Databases

分类简称:cs.DB

提交时间:2022-11-10

PDF 下载: 英文版 中文版pdf翻译中