损坏数据的快速移动-arXiv论文预印本中文版

损坏数据的快速移动

摘要：机器学习 (ML) 模型在生产管道中经常对大型持续增长的数据集的最新分区进行重新训练。由于工程错误，此类数据集中的分区几乎总是存在一些损坏的特征；因此，检测数据问题并阻止重新训练，以防止下游 ML 模型的准确度降低是至关重要的。然而，很难确定一个分区是否损坏到足以阻止重新训练的程度。过于频繁阻止会导致生产中的模型快照过期；过于不频繁阻止会导致生产中的模型快照无法使用。在本文中，我们介绍了一种在 Meta 实现的用于 ML 管道的自动数据验证系统。我们采用了我们所称的“分区摘要”（PS）方法进行数据验证：将基于时间戳的每个数据分区用数据质量指标进行摘要，并比较摘要以检测损坏的分区。我们描述了如何将 PS 用于几种数据验证方法，并比较了它们的优缺点。由于单独使用这些方法都不能满足我们对高准确度和召回率的要求，因此我们设计了 GATE，我们的高准确度和召回率数据验证方法。在 Instagram 数据的案例研究中，GATE 相对基线的平均精度提高了 2.1 倍。最后，我们讨论了在 Meta 生产 ML 管道中实现数据验证的经验教训。

作者：Shreya Shankar, Labib Fawaz, Karl Gyllstrom, Aditya G. Parameswaran

论文ID：2303.06094

分类：Databases

分类简称：cs.DB

提交时间：2023-03-13

PDF 下载： 英文版中文版pdf翻译中