PROBER:抽取和整合流程的即时调试

摘要:复杂信息提取(IE)流水线是由组合了现成操作员、定制操作员和其他文本处理流水线中重用的操作员而组成的,已成为大多数文本处理框架的重要组成部分。IE流水线用户面临的一个关键任务是对输出进行事后分析。由于提取操作员的多样性(通常由独立组织实现),将操作员的语义形式或操作形式正式描述给溯源系统是耗时且容易出错的。我们介绍了第一个可以帮助IE用户分析流水线语义并在调试时推断溯源的系统。这使得工作量与需求成比例,并且可以集中在可疑度最高的流水线部分上。我们提供了一个通用调试器,用于对任何由任意类型的操作员组成的IE流水线进行后执行分析。我们提出了一种有效的IE流水线溯源模型,该模型捕捉了各种类型的操作员,包括那些具有完整或无规格可用的操作员。我们提供了一套算法来有效地构建溯源并促进调试。最后,我们对来自约5亿个Web文档索引的大规模真实世界提取进行了广泛的实验研究。

作者:Anish Das Sarma and Alpa Jain and Philip Bohannon

论文ID:1004.1614

分类:Databases

分类简称:cs.DB

提交时间:2010-04-12

PDF 下载: 英文版 中文版pdf翻译中