基于内部准则函数的文档聚类的分析方法

摘要:快速高质量的文档聚类是整理信息、从用户查询中获取搜索引擎结果、增强网络爬虫和信息检索的重要任务。由于可用的数据量很大,并且目标是创建高质量的聚类,因此已经开发了各种算法,具有质量-复杂性的权衡。其中一些算法试图通过使用为整个聚类解定义的特定标准函数来最小化计算复杂性。在本文中,我们提出了一种基于内部标准函数的新型文档聚类算法。最常用的分区聚类算法(例如k-means)存在一些缺点,例如受到局部最优解的影响和创建空白聚类的问题。所提出的算法通常不会受到这些问题的困扰,并收敛到全局最优解,其性能随着聚类数量的增加而提升。我们对三个不同的数据集进行了三次不同的k值(所需聚类数量)测试以验证我们的算法。

作者:Alok Ranjan, Harish Verma, Eatesh Kandpal, Joydip Dhar

论文ID:1003.1814

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-03-11

PDF 下载: 英文版 中文版pdf翻译中