机器学习算法在单机和Spark上的并行化

摘要:大数据技术的快速发展使得从大量数据中挖掘有用信息成为一个重要问题。然而,使用机器学习算法分析大数据在传统单机上可能耗时且效率低下。为了解决这些问题,本文分别对几个经典的机器学习算法在单机和大数据平台Spark上进行了并行化的研究。我们比较了传统机器学习算法和并行化机器学习算法在单机和Spark平台上的运行时间和效率。研究结果显示,并行化机器学习算法在运行时间和效率方面有显著的改进。

作者:Jiajun Shen

论文ID:2206.07090

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-04-14

PDF 下载: 英文版 中文版pdf翻译中