生物医学出版物中Jupyter笔记本的计算再现性
摘要:Jupyter笔记本允许将可执行代码与其文档和输出捆绑在一个交互环境中,它们代表了一种常用的机制,用于记录和分享计算工作流程,包括科研出版物。在这里,我们分析了来自1117个GitHub存储库(与1419篇在生物医学文献库PubMed Central中索引的出版物相关联的存储库)中的9625个Jupyter笔记本的计算可重现性。其中8160个是用Python编写的,其中4169个在标准需求文件中声明了它们的依赖关系,并尝试自动重新运行它们。其中2684个能够成功安装所有声明的依赖项,我们重新运行它们以评估可重现性。其中,有396个笔记本成功运行,其中245个产生了与原始报告中相同的结果。运行其他笔记本会导致异常。我们关注常见问题和做法,突出趋势,并讨论与生物医学出版物相关的Jupyter工作流程的潜在改进。
作者:Sheeba Samuel, Daniel Mietchen
论文ID:2209.04308
分类:Computational Engineering, Finance, and Science
分类简称:cs.CE
提交时间:2022-09-12