自学哈希用于快速相似性搜索

摘要:大规模快速相似性搜索的能力对于许多信息检索(IR)应用来说非常重要。一种加速相似性搜索的有希望的方法是语义哈希,它为大量文档设计紧凑的二进制代码,使得语义上相似的文档被映射到相似的代码(在较短的汉明距离内)。尽管最近提出的一些技术能够为事先已知的文档生成高质量的代码,但为之前从未见过的文档获取代码仍然是一个非常具有挑战性的问题。在本文中,我们强调这个问题,并提出了一种新颖的自学习哈希(Self-Taught Hashing, STH)方法来进行语义哈希:首先通过无监督学习找到给定语料库中所有文档的最佳$l$位二进制代码,然后通过监督学习训练$l$个分类器来预测之前未见过的任何查询文档的$l$位代码。我们在三个真实的文本数据集上的实验证明,使用二值化拉普拉斯特征映射(LapEig)和线性支持向量机(SVM)的提出方法明显优于最先进的技术。

作者:Dell Zhang, Jun Wang, Deng Cai, Jinsong Lu

论文ID:1004.5370

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-04-30

PDF 下载: 英文版 中文版pdf翻译中