HTML文档的语义敏感网络信息检索模型
摘要:针对HTML文档提出了一种新的语义敏感网络信息检索模型。该模型采用了一种名为SWVM的向量模型和一种称为BTF-IDF的加权方案,特别设计用于支持对HTML网络文档的索引和检索。该模型的主要优势是为出现在与文档语义相关的特定HTML标签中的术语分配了额外权重。此外,该模型对语义敏感,它为每个被索引的术语生成同义词,然后适当地对它们进行加权,以增加检索具有相似语境但使用不同词汇术语的文档的可能性。通过进行的实验揭示了Web IR系统精确性的显著提高以及被检索到的相关文档数量的大幅增加。作为进一步研究,该提议的模型将进行升级,以支持对多媒体丰富的Web文档中的Web图片进行索引和检索。
作者:Youssef Bassil, Paul Semaan
论文ID:1204.0186
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-04-03