深度映射：关于学习数据映射用于压缩和高效查询处理的论点-arXiv论文预印本中文版

深度映射：关于学习数据映射用于压缩和高效查询处理的论点

摘要：通过深度学习数据映射(DepMapping)来平衡存储和查询效率是数据库领域一个长期存在的研究问题。虽然在文献中有几种无损压缩技术，但本研究认为并展示了，利用深度神经网络令人印象深刻的记忆能力的新型DeepMapping抽象可以在相同时间内提供更好的存储成本、更低的延迟和更好的运行时内存占用。我们提出的DeepMapping抽象将数据集转化为多个键值映射，并构建一个多任务神经网络模型，对于给定的输入键，输出相应的值。为了处理记忆错误，DeepMapping将学习到的神经网络与一个轻量级的辅助数据结构相结合，能够纠正错误。辅助结构进一步使DeepMapping能够高效处理插入、删除和更新，而无需重新训练映射。由于网络的形状对DeepMapping结构的总体大小有显著影响，我们进一步提出了一种多任务混合架构搜索策略，以选择在记忆容量、大小和效率之间达到理想平衡的DeepMapping架构。对合成数据集和基准数据集(TPC-H和TPC-DS)进行了大量实验证明所提出的DeepMapping方法可以显著减少基于键的查询的延迟，同时改善离线和运行时存储需求，优于几个尖端竞争对手。

作者：Lixi Zhou, K. Selc{c}uk Candan, Jia Zou

论文ID：2307.05861

分类：Databases

分类简称：cs.DB

提交时间：2023-07-13

PDF 下载： 英文版中文版pdf翻译中