快速和私密:基于任务的数据集搜索

摘要:现代数据集搜索平台采用基于机器学习任务的实用指标,而不是依靠基于元数据的关键词来搜索庞大的数据集存储库。在这种设置中,请求者提供初始数据集,平台找出补充性数据集以增强(联接或并集)请求者的数据集,从而最大程度提高机器学习模型(例如线性回归)的性能。尽管有效,当前基于任务的数据搜索受到以下限制:(1)高延迟使用户望而却步,(2)由于监管标准而引起的隐私问题,(3)提供低效用的低数据质量。我们介绍了Mileena,一个快速、隐私安全和高质量的基于任务的数据集搜索平台。Mileena的核心是基于预计算的半环草图,用于高效的机器学习训练和评估。基于半环,我们开发了一种新颖的因子化隐私机制,使搜索具备差别化的私密性,并且可以适应任意语料库大小和请求数量的扩展,同时不会严重降低质量。我们还展示了使用基于LLM的代理来进行自动数据转换,并应用半环来支持因果发现和治疗效应估计的早期潜力。

作者:Zezhou Huang, Jiaxiang Liu, Haonan Wang, and Eugene Wu

论文ID:2308.05637

分类:Databases

分类简称:cs.DB

提交时间:2023-08-22

PDF 下载: 英文版 中文版pdf翻译中