聚类非结构化数据(平面文件)- 文本挖掘工具的实现

摘要:使用电子媒体存储文本信息和文件在个人和组织中越来越普遍。从非结构化的文档集合中检索相关信息对读者来说是耗时的。当文档集合按组或类别进行排序或分类时,从大量集合中找到文档变得更加容易且节省时间。然而,找到最佳分类仍然是一个问题。本文讨论了我们实现的用于聚类非结构化文本文档的k-Means聚类算法的实施,从非结构化文本的表示开始,到最终得到的聚类集合。通过对样本文档集合的聚类结果进行分析,我们还提出了一种可以进一步改进聚类结果的文档表示技术。

作者:Yasir Safeer (1), Atika Mustafa (1), Anis Noor Ali (1) ((1) FAST - National University of Computer and Emerging Sciences)

论文ID:1007.4324

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-07-27

PDF 下载: 英文版 中文版pdf翻译中