云存储成本优化方向

摘要:在保持所需性能或延迟不受影响的同时,我们研究了云上数据存储和访问成本优化问题。首先,我们提出了一个优化器,针对给定具有时间访问预测的数据分区,优化云端的数据放置层和压缩方案的选择。其次,我们提出了一个模型,学习多种算法在不同格式的数据分区上的压缩性能,以生成即时的压缩性能预测作为优化器的输入。第三,我们提出了一种不同于当前大多数数据湖中默认的数据分区形式(批处理摄取)的数据分区方法,即基于访问模式的数据分区,并制定了一个优化问题,优化分区的大小和读取成本以适应访问模式。 我们在理论和实证上对各种优化问题进行了研究,并提供了理论上的界限和困难结果。我们提出了一个统一的成本最小化管道,称为SCOPe,将不同的模块组合在一起。我们在TPC-H数据以及企业数据集上(体积从GB到PB)与文献中的相关基准进行了广泛的性能比较,并展示了SCOPe相比基准方法的显著改进。我们展示了与平台基准相比的显著成本节省,针对企业数据湖数据集的体积从TB到PB的范围,可达到50%至83%的数量级。

作者:Koyel Mukherjee, Raunak Shah, Shiv Kumar Saini, Karanpreet Singh, Khushi, Harsh Kesarwani, Kavya Barnwal, Ayush Chauhan

论文ID:2305.14818

分类:Databases

分类简称:cs.DB

提交时间:2023-07-07

PDF 下载: 英文版 中文版pdf翻译中