这是一个好的标题吗?
摘要:通过在互联网搜索引擎上查询网页标题,我们提出了一种重新发现丢失网页的方法。我们研究了标题的检索性能,并将其与从页面内容中得出的词汇签名进行比较。由于标题自然地代表文档的内容,它们随着时间的推移而直观地改变。我们测量当前标题与从互联网档案馆获取的相同页面副本的标题之间的编辑距离,并展示它们的演变。我们进一步研究了标题变化与网页内容修改之间的相关性。最后,我们提供了一个预测模型,用于衡量给定网页标题在发现性能方面的质量。我们的结果显示,标题返回超过60%的URI排名靠前,并且在前10个结果中返回进一步相关的内容。我们展示了标题的衰减速度较慢,但比页面内容要稳定得多。我们还提取了一些能够帮助识别搜索引擎查询性能不佳的停止标题。
作者:Martin Klein, Jeffery Shipman, Michael L. Nelson
论文ID:1004.2719
分类:Information Retrieval
分类简称:cs.IR
提交时间:2010-04-19