不仅仅是GitHub:识别出发表论文中包含的数据和软件来源
摘要:开放获取数据集和软件产品越来越被视为研究成果,这些产品的URI在学术出版物中越来越常见。然而,与所有URI一样,网络上的资源并不是永久存在的。档案馆和机构,包括软件遗产、互联网档案馆和Zenodo,正在努力将数据和软件产品保存下来,作为科学研究的重要组成部分。虽然一些主机平台非常知名且可以用正则表达式识别,但研究人员使用各种规模较小、更专业的主机平台来托管其数据和软件。如果手动识别所有研究人员使用的主机平台不可行,我们如何识别开放获取数据和软件(OADS)的URI,以帮助保护它们?我们使用混合分类器将URI分类为OADS URI和非OADS URI。我们发现,Git主机平台(GHPs)的URI,包括GitHub、GitLab、SourceForge和Bitbucket,占到了33%的OADS URI。非GHP的OADS URI分布在近50000个独特的主机名中。我们确定使用混合分类器可以识别不常见主机平台上的OADS URI,从而有助于发现和保护数据集和软件产品作为研究成果用于可重现性。
作者:Emily Escamilla, Lamia Salsabil, Martin Klein, Jian Wu, Michele C. Weigle, Michael L. Nelson
论文ID:2307.14469
分类:Digital Libraries
分类简称:cs.DL
提交时间:2023-07-28