大规模基于链接的潜在狄利克雷分配用于网络文档分类。

摘要:大规模Web文档集合的分类中,我们展示了潜在狄利克雷分布(LDA)的适用性。我们的主要结果之一是一个新颖的影响模型,它考虑了链接,并提供了一个完全生成的文档内容模型。在我们的设置中,主题通过链接传播,链接的文档直接影响链接文档中的词语。作为另一个主要贡献,我们开发了LDA特定的Gibbs采样的增强算法,显著加快了实验速度。推断得到的LDA模型可以应用于分类,类似于潜在语义索引的降维方法。此外,该模型还提供了可以应用于处理Web图的链接权重;例如,我们将LDA链接权重应用于堆叠图形学习。通过使用Weka的BayesNet分类器,在分类的AUC上,我们相比于使用BayesNet的纯LDA提高了4%,相比于使用tf.idf和SVM的18%。我们的Gibbs采样策略在可能性和分类的AUC方面,速度提高了5-10倍,而准确性仅下降不到1%。

作者:Istv''an B''ir''o and J''acint Szab''o

论文ID:1006.4953

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-06-28

PDF 下载: 英文版 中文版pdf翻译中