基于在线数字图书馆使用主要关键词收集的摘要,自动提取次要关键词及其组合的算法
摘要:自动提取次要关键词和组合词(Combo words)的算法的开发和实施,基于使用标准主要关键词从著名在线数字图书馆(如IEEE Explore,PubMed Central等)收集的摘要。给定N个摘要的集合,我们随机选择M个摘要(M << N; M/N尽可能低至0.15),逐个解析每个M个摘要的每个单词。在第一次出现一个单词时,我们询问用户将单词分类为接受列表(Accept-List)或非接受列表(non-Accept-List)。通过测量算法解析M个摘要的单词时用户被询问分类的单词百分比来评估培训方法的有效性。我们观察到随着M的增大,用户被查询分类的单词的百分比大大减少。通过解析M个摘要构建可接受单词列表后,我们现在逐个解析所有N个摘要的单词,并统计在这些N个摘要中Accept-List中每个单词的出现频率。我们还构建了一个Combo-Accept-List,其中包含Accept-List中每个单词的所有可能组合,并且逐次解析N个摘要,每次两个连续的单词(组合词),并统计在这些N个摘要中Combo-Accept-List中每个组合词的出现频率。
作者:Natarajan Meghanathan, Nataliya Kostyuk, Raphael Isokpehi, Hari Cohly
论文ID:1006.1184
分类:Information Retrieval
分类简称:cs.IR
提交时间:2010-07-15