流数据处理的更好写放大

摘要:大规模的应用程序需要以流式方式进行数据处理,为了处理卡顿的工作节点和各种故障,需要自备并行系统。YT是Yandex的分布式系统的主要驱动力,包括分布式文件系统、锁服务、键值存储和内部MapReduce平台。我们实现了该系统的一个新组件,用于执行流式MapReduce操作,利用不同核心YT解决方案来实现容错和精确一次语义,同时保持效率和低写放大因子。

作者:Andrei Chulkov, Maxim Akhmedov

论文ID:2306.03272

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-06-07

PDF 下载: 英文版 中文版pdf翻译中