单子式Datalog与用于Web信息提取的语言的表达能力

摘要:从Web页面提取信息(包装)的研究近年来活动频繁(尤其是系统实现),但对所提出的形式化的表达能力或包装的理论基础的研究仍然很少。在本文中,我们首先研究以树为基础的单调datalog作为一种包装语言。我们展示了这种简单的语言在指定包装器的能力上与单调二阶逻辑(MSO)是等价的。我们认为MSO具有Web信息提取所需的正确表达能力,并提出MSO作为评估和比较包装器的标准。同时,我们还建立了关于树状单调datalog的查询评估和查询包含的一些关于复杂度的结果,并提出了该语言的一个简单的正常形式。基于上述结果,我们接下来研究了Lixto系统(一种视觉包装器生成器)中使用的Elog包装语言的核心片段Elog$^-$。有趣的是,Elog$^-$恰好捕捉到了MSO,但使用起来更加简单。确实,使用这种语言编写的程序可以完全通过可视化进行指定。

作者:Georg Gottlob and Christoph Koch

论文ID:cs/0211020

分类:Databases

分类简称:cs.DB

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中