维基百科中的实体排名
摘要:从大量的文档集合中使用自然语言处理技术和大规模训练,提取普通文本中的命名实体是传统的实体抽取问题所在。命名实体的例子包括组织、人物、地点或日期。有许多涉及命名实体的研究活动;我们对信息检索领域的实体排名感兴趣。在本文中,我们描述了我们在INEX维基百科文档集合中识别和排名实体的方法。维基百科提供了一些有趣的功能,我们首先介绍它们。然后,我们描述了实体排名系统的原理和架构,并介绍了我们的评估方法。我们的初步结果显示,维基百科的分类和链接结构,以及实体示例的使用,可以显著提高检索效果。
作者:Anne-Marie Vercoustre (INRIA Rocquencourt / INRIA Sophia Antipolis), James A. Thom (RMIT), Jovan Pehcevski (INRIA Rocquencourt / INRIA Sophia Antipolis)
论文ID:0711.3128
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-11-21