深度映射:关于学习数据映射用于压缩和高效查询处理的论点
摘要:通过深度学习数据映射(DepMapping)来平衡存储和查询效率是数据库领域一个长期存在的研究问题。虽然在文献中有几种无损压缩技术,但本研究认为并展示了,利用深度神经网络令人印象深刻的记忆能力的新型DeepMapping抽象可以在相同时间内提供更好的存储成本、更低的延迟和更好的运行时内存占用。我们提出的DeepMapping抽象将数据集转化为多个键值映射,并构建一个多任务神经网络模型,对于给定的输入键,输出相应的值。为了处理记忆错误,DeepMapping将学习到的神经网络与一个轻量级的辅助数据结构相结合,能够纠正错误。辅助结构进一步使DeepMapping能够高效处理插入、删除和更新,而无需重新训练映射。由于网络的形状对DeepMapping结构的总体大小有显著影响,我们进一步提出了一种多任务混合架构搜索策略,以选择在记忆容量、大小和效率之间达到理想平衡的DeepMapping架构。对合成数据集和基准数据集(TPC-H和TPC-DS)进行了大量实验证明所提出的DeepMapping方法可以显著减少基于键的查询的延迟,同时改善离线和运行时存储需求,优于几个尖端竞争对手。
作者:Lixi Zhou, K. Selc{c}uk Candan, Jia Zou
论文ID:2307.05861
分类:Databases
分类简称:cs.DB
提交时间:2023-07-13