存档查询日志:从25年的网络存档中挖掘数百个搜索引擎的数百万个搜索结果页面

摘要:Internet Archive 过去25年收集的存档查询日志(AQL)是一种以前未使用过的全面查询日志。其第一个版本包括3.56亿个查询、1.66亿个搜索结果页面和55家搜索提供商的17亿个搜索结果。尽管文献中研究了许多查询日志,但它们所属的搜索提供商通常不会公开发布日志以保护用户隐私和重要商业数据。已公开可用的查询日志很少,没有一个具有如此大的规模、范围和多样性。 AQL是第一个能够实现此功能的查询日志,从而促进了新检索模型和(历时的)搜索引擎分析的研究。它以保护隐私的方式提供,促进开放研究,并在搜索行业中更加透明和负责。

作者:Jan Heinrich Reimer, Sebastian Schmidt, Maik Fr"obe, Lukas Gienapp, Harrisen Scells, Benno Stein, Matthias Hagen, Martin Potthast

论文ID:2304.00413

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-01

PDF 下载: 英文版 中文版pdf翻译中