处理稀疏文档和主题表示:CHiC 2012实验报告
摘要:GESIS参加了首届CHiC研讨会(CLEF中的文化遗产)。该研讨会是第一次举办,没有关于这个新数据集的任何先前经验,这个数据集是欧洲纪录馆的约2300万文件。通过对这个测试集的预测试,出现了一些突出的问题,包括非常不具体的主题和稀疏的文档表示。只有一半的主题(26/50)包含了描述,标题通常只有大约两个词。因此,我们专注于三种不同的术语建议和查询扩展机制,以克服稀疏的主题描述。我们使用了两种从维基百科中提取概念的方法,以及一种应用共现统计方法于可用的欧洲纪录馆语料库的方法。在接下来的论文中,我们将介绍这些方法和初步结果。
作者:Philipp Schaer, Daniel Hienert, Frank Sawitzki, Andias Wira-Alam, Thomas L"uke
论文ID:1208.3952
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-08-21