GitHub在学术出版中的崛起

摘要:保护学术内容的定义已经扩展到包括对出版物有所贡献的数据和源代码。虽然主要的档案保护努力通常是为了保存传统的学术内容(通常以PDF形式存储,例如LOCKSS、CLOCKSS、Portico),但目前还没有类似的努力来保存这些PDF中所引用的数据和代码,尤其是托管在Git托管平台(GHPs)上的学术代码。同样地,Software Heritage Foundation正在努力存档公共源代码,但是将与代码相关的问题线程、拉取请求和维基存档起来并保持其原始URL的价值也是有的。在当前的实施中,源代码及其相关附属资料并没有被保存下来,这对于重视可重现性的学术项目来说是一个问题。为了了解和量化这个问题的范围,我们分析了从2007年1月到2021年12月的arXiv和PMC文献库中对GHP URI的使用情况。总共,在这些文献库的266万篇文献中,有253,590个URI指向GitHub、SourceForge、Bitbucket和GitLab的代码库。我们发现,GitHub、GitLab、SourceForge和Bitbucket在2007年被联接了160次,而在2021年则有76,746次。在2021年的arXiv文献库中,五分之一的文献包含对GitHub的URI。像GitHub这样的GHP的复杂性并不适合传统的Web存档技术。因此,学术出版物中对GHP的使用日益增长,这指出了我们迫切需要专门的努力来存档这些代码库,以保留研究代码及其学术相关资料的需求的增长。

作者:Emily Escamilla, Martin Klein, Talya Cooper, Vicky Rampin, Michele C. Weigle, Michael L. Nelson

论文ID:2208.04895

分类:Digital Libraries

分类简称:cs.DL

提交时间:2022-08-10

PDF 下载: 英文版 中文版pdf翻译中