网页存档去哪了?

摘要:研究网页存档的长期变化和检测个别存档页面播放的变化,我们从17个公共网页存档中创建了16627个样本。在我们为期14个月的研究中(2017年11月至2019年1月),我们发现有四个网页存档更改了其基本URI,并且没有提供可机器读取的方法来定位它们的新基本URI,因此需要手动重新发现。在我们的样本中,来自这四个网页存档的1981个存档中,有537个受到影响:517个存档被重新发现,但其存档时间(或Memento-Datetime)、HTTP状态码或构成其原始URI(或URI-R)的字符串发生了变化,而其中20个存档根本找不到。

作者:Mohamed Aturban, Michael L. Nelson, Michele C. Weigle

论文ID:2108.05939

分类:Digital Libraries

分类简称:cs.DL

提交时间:2021-08-16

PDF 下载: 英文版 中文版pdf翻译中