全文和URL搜索Web档案
摘要:网络存档是一个具有历史价值的信息来源。在某些方面上,网络存档是过去两十年人类社会演变的唯一记录。它们保存了个人和集体记忆的混合,随着时间的推移,它们的重要性越来越大。然而,网络存档的价值取决于用户能够以高效和有效的方式搜索和访问他们所需的信息。如果无法探索和利用存档内容,网络存档就没有意义。网络存档的访问功能从基本浏览到高级搜索和分析服务,通过用户友好的界面进行访问。全文和URL搜索已成为网络存档中最主要且首选的信息发现形式,满足用户需求并支持搜索API,用于供给复杂的应用程序。全文和URL搜索都基于为现代网络搜索引擎开发的技术,因为Web是两种系统都针对的主要资源。然而,虽然网络搜索引擎能够搜索最近的网络快照,但网络存档能够搜索过去的多个快照。这意味着网络存档必须处理时间维度,这是引发新挑战和机遇的原因,在本章中讨论。
作者:Miguel Costa
论文ID:2108.01603
分类:Digital Libraries
分类简称:cs.DL
提交时间:2021-08-04