TopSig:保持拓扑结构的文档签名
摘要:文件签名和倒排文件在文本检索方面的性能比较以前已经显示了文件签名相对于倒排文件的几个显著缺点。倒排文件方法支持大部分最先进的搜索引擎算法,如语言和概率模型。广泛认为传统的文件签名是倒排文件的劣等替代品。本文描述了TopSig,一种新的文件签名构建方法。在最近的语义哈希和降维方面取得了许多进展,但这些进展迄今与通用的基于签名文件的搜索引擎并未联系起来。本文介绍了一种不同的签名文件方法,它建立在并扩展了这些最新进展的基础之上。我们能够证明,在基于签名文件的索引和检索方面取得了显著的性能改进,性能可与最先进的基于倒排文件的系统相比,包括语言模型和BM25。这些研究结果表明,在适当的环境中,文件签名提供了倒排文件的可行替代方案,并从理论角度上将文件签名模型定位在向量空间检索模型类别中。
作者:Shlomo Geva and Christopher M. De Vries
论文ID:1204.5373
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-04-25