分布式流处理系统中数据丰富方法的评估

摘要:现代应用架构中,流处理已经成为一个关键组件。随着物联网、商业智能和电信等来源数据的指数增长,实时处理非有限数据流已成为一种必要性。DSP系统提供了解决这一挑战的方案,提供高水平的可扩展性,容错执行能力以及在单个DSP作业中处理来自多个来源的数据流的能力。然而,通常情况下,数据流需要通过附加信息进行增强才能正确处理,这引入了额外的依赖和潜在的瓶颈。 本文对DSP系统的数据增强方法进行了深入评估,并确定了现代系统中流处理的不同使用情况。通过使用代表性的DSP系统并在一个真实的云环境中进行评估,我们发现将增强数据外包给DSP系统可以提高特定使用情况下的性能。然而,这种增加的资源消耗凸显了对专为云应用的性能密集型工作负载而设计的流处理解决方案的需求。

作者:Dominik Scheinert, Fabian Casares, Morgan K. Geldenhuys, Kevin Styp-Rekowski, Odej Kao

论文ID:2307.14287

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-07-27

PDF 下载: 英文版 中文版pdf翻译中