使用溯源技术增强模式演化的反转-arXiv论文预印本中文版

使用溯源技术增强模式演化的反转

摘要：长期数据驱动研究已成为科学的许多领域不可或缺的工具。然而，由于数据格式、结构和语义会随着时间而变化，数据集也会不断演变。因此，在几十年的研究中，特别需要考虑到数据库模式的变化。这些数据库的演变在某个阶段会导致大量的模式，需要进行存储和管理，而这是耗时和昂贵的。然而，从研究数据的可重现性的角度来看，每个数据库版本都必须能够在很少的工作量下重建。这样一来，以前发布的结果可以随时进行验证和再现。然而，在许多情况下，这样的演变不能完全重建。本文对15种最常用的模式修改操作进行了分类，并为每个操作定义了相应的逆操作。为了避免信息丢失，还定义了必须存储哪些附加的来源信息。我们定义了处理悬空元组、重复项和源不变操作符的四个类别，每个类别都由一个代表来展示。通过使用和扩展模式映射及其逆向查询、数据分析、为什么来源和模式演变的理论，我们能够在不断演化的数据库结构下结合数据分析应用和来源，以便在较长时间内保证科学结果的可重现性。尽管大多数用于分析或演化的模式映射的逆映射不是精确的，只是准逆映射，但添加来源信息使我们能够重建研究数据的子数据库，从而确保可重现性。

作者：Tanja Auge and Andreas Heuer

论文ID：2211.13810

分类：Databases

分类简称：cs.DB

提交时间：2022-11-28

PDF 下载： 英文版中文版pdf翻译中