聚类非结构化数据(平面文件)- 文本挖掘工具的实现
摘要:使用电子媒体存储文本信息和文件在个人和组织中越来越普遍。从非结构化的文档集合中检索相关信息对读者来说是耗时的。当文档集合按组或类别进行排序或分类时,从大量集合中找到文档变得更加容易且节省时间。然而,找到最佳分类仍然是一个问题。本文讨论了我们实现的用于聚类非结构化文本文档的k-Means聚类算法的实施,从非结构化文本的表示开始,到最终得到的聚类集合。通过对样本文档集合的聚类结果进行分析,我们还提出了一种可以进一步改进聚类结果的文档表示技术。
作者:Yasir Safeer (1), Atika Mustafa (1), Anis Noor Ali (1) ((1) FAST - National University of Computer and Emerging Sciences)
论文ID:1007.4324
分类:Information Retrieval
分类简称:cs.IR
提交时间:2010-07-27