XML文档挖掘的灵活基于结构的表示-arXiv论文预印本中文版

XML文档挖掘的灵活基于结构的表示

摘要：INRIA小组参与INEX XML Mining track 2005时报告了他们对XML挖掘的方法。他们使用了一种灵活的XML文档表示方法，可以仅考虑结构或同时考虑结构和内容。他们的方法是通过一组子路径来表示XML文档，这些子路径根据一些标准（长度、根起始、叶子结束）来定义。将这些子路径视为单词，他们可以使用标准的词汇量减少方法和简单的聚类方法（如K-means），以实现良好的扩展性。他们实际上使用了一个被称为“动态云”的聚类算法的实现，该算法可以处理放在单独变量中的独立变量组。这在他们的模型中非常有用，因为嵌套的子路径并非独立：他们将潜在的依赖路径分割成独立的变量，每个变量包含独立的路径。对于仅考虑结构的集合，对INEX集合进行的实验显示出良好的结果，但对于大型的结构和内容集合，他们的方法无法良好扩展。

作者：Anne-Marie Vercoustre (INRIA Rocquencourt / INRIA Sophia Antipolis), Mounir Fegas (INRIA Rocquencourt / INRIA Sophia Antipolis), Saba Gul (INRIA Rocquencourt / INRIA Sophia Antipolis), Yves Lechevallier (INRIA Rocquencourt / INRIA Sophia Antipolis)

论文ID：cs/0607012

分类：Information Retrieval

分类简称：cs.IR

提交时间：2007-05-23

PDF 下载： 英文版中文版pdf翻译中