对一个具有同质结构的XML文档集合进行分类的经验

摘要:用于验证现有分类或更一般的组织结构的聚类同质XML文档的一些实验。我们的方法将从文档中提取知识的技术与文档的无监督分类(聚类)相结合。我们重点研究用于表示文档的特征选择及其对出现的分类的影响。我们将结构化特征的选择与基于句法特征的细粒度文本选择相结合。我们使用2003年Inria活动报告的收集来说明和评估此方法。目标是基于这些活动报告的关键词或不同章节将项目聚类为较大的群组(主题)。然后,我们将使用不同的特征选择与Inria使用的官方主题结构进行聚类结果比较。

作者:Thierry Despeyroux, Yves Lechevallier, Brigitte Trousse, Anne-Marie Vercoustre

论文ID:cs/0508036

分类:Information Retrieval

分类简称:cs.IR

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中