验证现有分类体系的同质XML文档聚类实验
摘要:聚类同质XML文档以验证现有的分类或更一般的组织结构的实验证明。我们的方法将从文档中提取知识的技术与文档的无监督分类(聚类)相结合。我们关注用于表示文档的特征选择及其对所得分类的影响。我们将结构化特征的选择与基于句法特征的细致文本选择混合使用。我们使用Inria活动报告的2003年的集合来说明和评估这种方法。目标是根据这些活动报告的关键词或不同章节将项目聚类到更大的群组(主题)中。然后,我们将使用不同的特征选择对聚类结果与Inria使用的官方主题结构进行比较。
作者:Thierry Despeyroux (INRIA Rocquencourt / INRIA Sophia Antipolis), Yves Lechevallier (INRIA Rocquencourt / INRIA Sophia Antipolis), Brigitte Trousse (INRIA Rocquencourt / INRIA Sophia Antipolis), Anne-Marie Vercoustre (INRIA Rocquencourt / INRIA Sophia Antipolis)
论文ID:cs/0507024
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-05-23