HTML正确,JSON错误:重播使用客户端渲染构建的存档网页的挑战

摘要:网站构建页面的方式正在发生转变,传统的模式是将内容嵌入HTML中,并在HTTP响应中返回给客户端。越来越多的网站采用了一种新的模式,即初始的HTTP响应仅包含HTML骨架和通过JavaScript调用各种服务器获取内容(通常以JSON格式),然后在客户端构建DOM,更容易实现页面内容的定期刷新和动态修改。这种客户端渲染现在在社交媒体平台(如Twitter和Instagram)上占主导地位,并且新闻媒体(如CNN.com)也开始采用这种方式。然而,当对这些使用客户端渲染的页面应用传统的网络归档技术(如使用Heritrix进行爬取)时,JSON响应可能会与要嵌入的HTML页面不符,从而导致时间上的不一致。由于违规的JSON响应无法直接在页面中观察到(就像违规的嵌入式图像那样),时间上的不一致可能很难检测出来。我们描述了从2015年4月起,CNN.com主页开始使用客户端渲染的情况,以及这对网络归档产生的影响。在2015年4月24日至2016年7月21日期间,我们发现了近15,000个备份,其中基本的CNN.com HTML与用于提供主要内容下的JSON响应之间存在超过2天的时间差。缓解这个问题的一种方法是使用基于浏览器的爬取,而非传统的爬虫工具如Heritrix,但目前基于浏览器的爬取速度要慢得多。

作者:Michele C. Weigle, Michael L. Nelson, Sawood Alam and Mark Graham

论文ID:2305.01071

分类:Digital Libraries

分类简称:cs.DL

提交时间:2023-05-03

PDF 下载: 英文版 中文版pdf翻译中