D-Lib杂志中Web引用的可用性和持久性
摘要:D-Lib杂志文章中引用的URL的可用性和持久性的探究。我们提取了1995年7月至2004年8月期间发表的453篇文章中引用的4387个唯一URL。从2004年9月到2005年2月,我们每周检查3次可用性,共25周。我们发现大约28%的URL最初无法解析,最后一次检查时有30%无法解析。大多数无法解析的URL是由于404(页面未找到)和500(内部服务器错误)错误。URL指向的内容相对稳定,只有16%的内容在测试期间发生了1 KB以上的改变。我们通过查看URL的年龄,路径深度,顶级域和文件扩展名,探讨可能导致URL无法解析的因素。根据收集的数据,我们发现D-Lib杂志文章中引用的URL的半衰期约为10年。我们还发现,如果URL指向.net、.edu或特定国家的顶级域中的资源,使用非标准端口(而不是端口80),或指向具有不常见或过时扩展名的资源(例如shtml,ps,txt),则URL更有可能不可用。
作者:Frank McCown, Sheffan Chan, Michael L. Nelson, Johan Bollen
论文ID:cs/0511077
分类:Digital Libraries
分类简称:cs.DL
提交时间:2011-11-09