(半)自动消除学术存储库的歧义
摘要:学术存储库的充分利用对现代开放科学至关重要,学术存储库注册表是使研究人员和研究基础设施能够列出和搜索合适的存储库的关键。然而,由于存在多个注册表,存储库管理员渴望多次注册他们管理的存储库,以最大程度地提高其在不同研究群体、学科和应用中的曝光度和可见性。这些多重注册最终导致信息碎片化和冗余,另一方面,迫使注册表的用户在不同的注册表、配置文件和标识符之间穿梭描述相同存储库。这些问题已被注册表所知,并通过在不同注册表之间交叉引用其标识符来声称存储库配置文件之间的等同性。然而,正如我们将要看到的,这个“声明集”远非完整,因此许多复制品在未被发现的情况下悄然存在,可能在下游产生问题。在这项工作中,我们将这些声明结合起来创建重复集,并通过在存储库元数据描述上运行自动聚类算法的结果对其进行扩展。然后我们人工验证结果,以生成一个“尽可能准确”的学术存储库去重数据集。
作者:Miriam Baglioni, Andrea Mannocci, Gina Pavone, Michele De Bonis and Paolo Manghi
论文ID:2307.02647
分类:Digital Libraries
分类简称:cs.DL
提交时间:2023-07-07