信息检索的有效网络文档聚类

摘要:Web页面聚类的混合方法 摘要:在过去几年中,Web的规模呈指数增长,数以千计与某一主题相关的文档可供用户使用。有了这么多的信息可用,如果没有一个适当的框架来搜索这些可用数据,就不可能充分利用万维网。这种必要的组织可以通过多种方式来实现。在本文中,我们介绍了一种组合方法来对Web页面进行聚类,该方法首先找到频繁集,然后对文档进行聚类。这些频繁集是通过使用频繁模式增长技术生成的。然后通过在其上应用模糊C-均值算法,我们找到了具有高度相关和相似特征的文档的聚类。我们使用Gensim包来实现我们的方法,因为它简单而强大。我们将我们的结果与(Frequent Pattern growth, K-means)和(Frequent Pattern growth, Cosine_Similarity)的组合方法进行了比较。实验结果表明,我们的方法比上述两种组合方法更高效,并且能够更有效地处理传统模糊C-均值算法的严重限制,该算法对初始质心和要形成的聚类数量敏感。

作者:R.K. Roul and S.K. Sahay

论文ID:1211.1107

分类:Information Retrieval

分类简称:cs.IR

提交时间:2012-11-07

PDF 下载: 英文版 中文版pdf翻译中