随时间变化的格式:探索英国网络历史

摘要:软件过时性是否是一个重大的风险?为了探索这个问题,我们分析了一个包含超过25亿资源的语料库,对应于1996年至2010年之间抓取的英国网域。使用DROID和Apache Tika识别工具,我们检查了每个资源,并将结果以扩展的MIME类型、嵌入版本、软件和硬件标识符以及格式信息进行捕获。合并的结果形成了该语料库的详细时间格式概况,我们已将其作为开放数据提供。我们展示了对这个数据集进行的初步分析结果。我们详细研究了图像、HTML和PDF资源,展示了不同格式、版本和软件实现的使用情况随时间的变化。此外,我们还表明,在网络中,软件过时性是罕见的,并揭示了网络效应稳定了格式免受过时性侵害的证据。

作者:Andrew N. Jackson

论文ID:1210.1714

分类:Digital Libraries

分类简称:cs.DL

提交时间:2012-10-08

PDF 下载: 英文版 中文版pdf翻译中