Kitana：用于AutoML的高效数据增强搜索-arXiv论文预印本中文版

Kitana：用于AutoML的高效数据增强搜索

摘要：自动机器学习（AutoML）服务提供了一种方式，非专家用户可以在不担心模型设计和部署的情况下受益于高质量的机器学习模型，但需要按小时付费（VertexAI的费用为$21.252）。然而，现有的AutoML服务是面向模型的，即仅限于从初始训练数据中提取特征和搜索模型——它们的有效性取决于初始训练数据的质量。随着可用的表格数据量的增加，数据增强提供了巨大的机会。例如，垂直增强可以增加预测特征，而水平增强则可以增加示例。通过增强的训练数据，可以以较低的成本获得潜在优质的AutoML模型。然而，现有系统要么放弃提供低质量的模型的增强机会，要么应用昂贵的增强搜索技术以耗尽用户的预算。Kitana是一个面向数据的AutoML系统，它还搜索可以通过加入数据集中的新特征和/或示例来增强表格训练数据的新表格数据集。Kitana管理一个数据集语料库，向用户提供AutoML接口，并搜索使用语料库中的数据集进行增强以提高AutoML性能。为了加速搜索，Kitana将积极的预计算应用于训练一个因式化代理模型，并在0.1秒内评估每个候选的增强。Kitana还使用成本模型来限制在增强搜索上花费的时间，支持表达式数据访问控制，并执行请求缓存以从过去的类似请求中受益。在使用518个开源数据集的语料库的情况下，Kitana相对于现有的AutoML系统在数量级更少的时间内生成更高质量的模型。在不同的用户请求中，相对于简单的因式化学习和SOTA数据增强搜索，Kitana将模型的R2从0.16增加到0.66，同时将成本降低了>100倍。

作者：Zezhou Huang, Pranav Subramaniam, Raul Castro Fernandez, Eugene Wu

论文ID：2305.10419

分类：Databases

分类简称：cs.DB

提交时间：2023-05-18

PDF 下载： 英文版中文版pdf翻译中