上下文敏感的电子文档语料库访问
摘要:上下文敏感电子文档访问的方法论将上下文视为基于从应用域中提取的知识的问题模型,并以应用本体的形式呈现。需要高效地访问文字形式的信息。维基资源作为一种现代文本格式,提供了大量的半正式结构化文本。在方法论的第一阶段,文档针对表示宏观情境的本体进行索引。索引方法使用主题树作为文档和应用本体之间的中间层。在第二阶段,识别与当前情境(抽象和操作情境)相关的文档,并按相关程度进行排序。抽象情境是基于问题导向的本体模型。操作情境是使用信息源提供的数据对抽象情境进行实例化。描述了以下方法论的部分内容:(i)用于测量电子文档与本体相似度的度量标准,(ii)存储电子文档针对本体进行索引的文档索引,(iii)基于语义相似度度量的识别相关电子文档的方法。维基百科(维基资源)作为电子文档方法评估的语料库进行案例研究。文本分类,元数据的存在以及与不同主题相关的大量文章的存在特征化了这个语料库。
作者:A. V. Smirnov, T. V. Levashova, M. P. Pashkin, N. G. Shilov, A. A. Krizhanovsky, A. M. Kashevnik, and A. S. Komarova
论文ID:cs/0610058
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-05-23