交互式和可复现分析的容器化综述

摘要:数据分析在过去几十年中变得越来越计算化。相应地,这改变了科学和统计工作的共享方式。例如,现在很常见的是在期刊发表和会议报告中,同时提供底层分析代码和数据。不幸的是,共享代码面临着几个挑战。首先,从一台计算机上取出代码并在另一台计算机上运行通常很困难。代码的配置、版本和依赖关系问题经常使这一过程变得具有挑战性。其次,即使代码可以运行,理解或与分析进行交互也常常很困难。这使得在同行评审过程中评估代码及其结果变得困难。在本文中,我们描述了两种计算技术的结合,帮助分析变得可共享、可交互和完全可重现。这些技术分别是:(1)分析容器化,利用虚拟化将分析、数据、代码和依赖项完全封装为一个可交互和可共享的格式;(2)代码笔记本,一种可以与分析进行交互的可读性编程格式。这两种技术的融合相较于单独使用任何一种技术都具有显著优势。本综述调查了这种组合如何提高代码、分析和理念的可访问性和可重现性。

作者:Gregory J. Hunt and Johann A. Gagnon-Bartsch

论文ID:2103.16004

分类:Other Statistics

分类简称:stat.OT

提交时间:2021-08-05

PDF 下载: 英文版 中文版pdf翻译中