XML文档挖掘的灵活基于结构的表示
摘要:INRIA小组参与INEX XML Mining track 2005时报告了他们对XML挖掘的方法。他们使用了一种灵活的XML文档表示方法,可以仅考虑结构或同时考虑结构和内容。他们的方法是通过一组子路径来表示XML文档,这些子路径根据一些标准(长度、根起始、叶子结束)来定义。将这些子路径视为单词,他们可以使用标准的词汇量减少方法和简单的聚类方法(如K-means),以实现良好的扩展性。他们实际上使用了一个被称为“动态云”的聚类算法的实现,该算法可以处理放在单独变量中的独立变量组。这在他们的模型中非常有用,因为嵌套的子路径并非独立:他们将潜在的依赖路径分割成独立的变量,每个变量包含独立的路径。对于仅考虑结构的集合,对INEX集合进行的实验显示出良好的结果,但对于大型的结构和内容集合,他们的方法无法良好扩展。
作者:Anne-Marie Vercoustre (INRIA Rocquencourt / INRIA Sophia Antipolis), Mounir Fegas (INRIA Rocquencourt / INRIA Sophia Antipolis), Saba Gul (INRIA Rocquencourt / INRIA Sophia Antipolis), Yves Lechevallier (INRIA Rocquencourt / INRIA Sophia Antipolis)
论文ID:cs/0607012
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-05-23