混合XML检索:信息检索与本地XML数据库的结合
摘要:XML检索的三种方法:使用Zettair,一种全文信息检索系统;使用eXist,一种本地XML数据库;并使用混合系统,从Zettair中获取完整的文章答案并使用eXist提取其中的元素。对于仅涉及内容的主题,我们对INEX 2003相关性评估进行初步分析,以确定高度相关的文档组成部分的类型。进一步分析确定了两个互补的相关性评估子案例(“普通”和“具体”)和两个主题分类(“广泛”和“狭窄”)。我们开发了一种新的检索模块,用于仅涉及内容的主题,利用本地XML数据库的结果答案列表中的信息,并动态确定首选的检索单位,我们称之为“一致的检索元素”。我们的实验结果表明,当对三种系统进行不同的检索场景评估时(例如不同的相关性评估情况、不同的主题分类和不同的评估指标选择),XML检索系统展现出不同的行为方式,并且不同的检索参数取值可以获得最佳性能。在仅涉及内容的主题的INEX 2003相关性评估案例中,我们新开发的混合XML检索系统比Zettair和eXist更有效,并产生了稳健且非常有效的XML检索结果。
作者:Jovan Pehcevski (RMIT), James A. Thom (RMIT), Anne-Marie Vercoustre
论文ID:cs/0507070
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-05-23