Amalur：数据集成与机器学习-arXiv论文预印本中文版

Amalur：数据集成与机器学习

摘要：机器学习模型训练所需的数据可以存在不同的独立站点，通常被称为数据孤岛。对于数据密集型的机器学习应用程序来说，数据孤岛构成了一个重大挑战：数据的集成和转换需要大量的手工工作和计算资源。在数据隐私和安全约束条件下，数据通常不能离开本地站点，模型必须以分散的方式进行训练。本文提出了一种将传统数据集成技术与现代机器学习要求相结合的愿景。我们探讨了利用从数据集成过程中获得的元数据来提高机器学习模型的效果和效率的可能性。我们分析了两种常见的数据孤岛使用案例，即特征增强和联邦学习。通过将数据集成和机器学习结合起来，我们从系统、表示、分解学习和联邦学习的角度强调了新的研究机会。

作者：Rihan Hai, Christos Koutras, Andra Ionescu, Ziyu Li, Wenbo Sun, Jessie van Schijndel, Yan Kang, Asterios Katsifodimos

论文ID：2205.09681

分类：Databases

分类简称：cs.DB

提交时间：2023-03-02

PDF 下载： 英文版中文版pdf翻译中