一个半自动的混合模式植被数据集成的架构匹配框架
摘要:整合分散和分布的植被数据对于一致和明智的国家政策制定和管理至关重要。澳大利亚的国家植被信息系统(NVIS)是国内唯一的统一植被数据库,并包含不同地点的植被类型的层次结构。目前,该数据库采用手动方法整合不同州和领地的数据集,这种方法劳动力密集且容易出错。为了应对不断增长的从异构数据源获取最新植被数据的需求,本文提出了一种半自动的混合匹配器(SAHM)。SAHM采用两层匹配框架,同时利用模式层次和实例层次匹配。SAHM中的一种创新技术——多元统计匹配,用于自动化模式评分,利用领域知识和属性之间的相关性来增强匹配性能。为验证所提出的框架的有效性,对SAHM的各个组件及其组合进行了性能评估。实证评估显示了所提出的框架的有效性,它表现优于Cupid、Coma、相似性泛滥(Similarity Flooding)、Jaccard Leven Matcher、基于分布的匹配器(Distribution Based Matcher)和EmbDI等现有技术。具体而言,SAHM在精度方面达到了88%至100%,F1得分明显优于现有技术。与现有技术相比,SAHM的效率也提高了数个数量级。
作者:Md Asif-Ur-Rahman, Bayzid Ashik Hossain, Michael Bewong, Md Zahidul Islam, Yanchang Zhao, Jeremy Groves, Rory Judith
论文ID:2305.06528
分类:Databases
分类简称:cs.DB
提交时间:2023-05-12