深度聚类用于数据清洗和集成

摘要:深度学习(DL)技术现在已成为文本和图像处理等重要问题的最前沿技术,并且在几个数据管理任务中,部署DL已经取得了重大的成果。深度聚类(DC)最近作为DL的一个子学科出现,其中数据表示与聚类一起学习,旨在自动识别导致改进聚类结果的数据特征。尽管DC在多个领域,特别是图像处理方面取得了良好的效果,但DC对主流数据管理任务的影响仍未被探索。在本文中,我们填补了这一空白,通过调查DC在基本数据清理和集成任务中的影响,包括模式推断、实体消解和领域发现,这些任务分别代表了表、行和列的聚类。在这个设置中,我们使用标准基准测试比较和对比了几种DC和非DC的聚类算法。结果显示,最有效的DC算法在数据集成任务中始终优于非DC聚类算法。然而,我们还观察到,选择的行、列和表的嵌入方法显著影响了聚类性能。

作者:Hafiz Tayyab Rauf, Norman W. Paton and Andre Freitas

论文ID:2305.13494

分类:Databases

分类简称:cs.DB

提交时间:2023-05-24

PDF 下载: 英文版 中文版pdf翻译中