使用溯源技术增强模式演化的反转
摘要:长期数据驱动研究已成为科学的许多领域不可或缺的工具。然而,由于数据格式、结构和语义会随着时间而变化,数据集也会不断演变。因此,在几十年的研究中,特别需要考虑到数据库模式的变化。这些数据库的演变在某个阶段会导致大量的模式,需要进行存储和管理,而这是耗时和昂贵的。然而,从研究数据的可重现性的角度来看,每个数据库版本都必须能够在很少的工作量下重建。这样一来,以前发布的结果可以随时进行验证和再现。 然而,在许多情况下,这样的演变不能完全重建。本文对15种最常用的模式修改操作进行了分类,并为每个操作定义了相应的逆操作。为了避免信息丢失,还定义了必须存储哪些附加的来源信息。我们定义了处理悬空元组、重复项和源不变操作符的四个类别,每个类别都由一个代表来展示。 通过使用和扩展模式映射及其逆向查询、数据分析、为什么来源和模式演变的理论,我们能够在不断演化的数据库结构下结合数据分析应用和来源,以便在较长时间内保证科学结果的可重现性。尽管大多数用于分析或演化的模式映射的逆映射不是精确的,只是准逆映射,但添加来源信息使我们能够重建研究数据的子数据库,从而确保可重现性。
作者:Tanja Auge and Andreas Heuer
论文ID:2211.13810
分类:Databases
分类简称:cs.DB
提交时间:2022-11-28