信息检索的有效网络文档聚类-arXiv论文预印本中文版

信息检索的有效网络文档聚类

摘要：Web页面聚类的混合方法摘要：在过去几年中，Web的规模呈指数增长，数以千计与某一主题相关的文档可供用户使用。有了这么多的信息可用，如果没有一个适当的框架来搜索这些可用数据，就不可能充分利用万维网。这种必要的组织可以通过多种方式来实现。在本文中，我们介绍了一种组合方法来对Web页面进行聚类，该方法首先找到频繁集，然后对文档进行聚类。这些频繁集是通过使用频繁模式增长技术生成的。然后通过在其上应用模糊C-均值算法，我们找到了具有高度相关和相似特征的文档的聚类。我们使用Gensim包来实现我们的方法，因为它简单而强大。我们将我们的结果与(Frequent Pattern growth, K-means)和(Frequent Pattern growth, Cosine_Similarity)的组合方法进行了比较。实验结果表明，我们的方法比上述两种组合方法更高效，并且能够更有效地处理传统模糊C-均值算法的严重限制，该算法对初始质心和要形成的聚类数量敏感。

作者：R.K. Roul and S.K. Sahay

论文ID：1211.1107

分类：Information Retrieval

分类简称：cs.IR

提交时间：2012-11-07

PDF 下载： 英文版中文版pdf翻译中