大规模基于链接的潜在狄利克雷分配用于网络文档分类。-arXiv论文预印本中文版

大规模基于链接的潜在狄利克雷分配用于网络文档分类。

摘要：大规模Web文档集合的分类中，我们展示了潜在狄利克雷分布（LDA）的适用性。我们的主要结果之一是一个新颖的影响模型，它考虑了链接，并提供了一个完全生成的文档内容模型。在我们的设置中，主题通过链接传播，链接的文档直接影响链接文档中的词语。作为另一个主要贡献，我们开发了LDA特定的Gibbs采样的增强算法，显著加快了实验速度。推断得到的LDA模型可以应用于分类，类似于潜在语义索引的降维方法。此外，该模型还提供了可以应用于处理Web图的链接权重；例如，我们将LDA链接权重应用于堆叠图形学习。通过使用Weka的BayesNet分类器，在分类的AUC上，我们相比于使用BayesNet的纯LDA提高了4％，相比于使用tf.idf和SVM的18％。我们的Gibbs采样策略在可能性和分类的AUC方面，速度提高了5-10倍，而准确性仅下降不到1％。

作者：Istv''an B''ir''o and J''acint Szab''o

论文ID：1006.4953

分类：Information Retrieval

分类简称：cs.IR

提交时间：2010-06-28

PDF 下载： 英文版中文版pdf翻译中