基于领域本体MeSH的医疗文档分类
摘要:使用领域本体进行Web文档分类的问题。我们的目标是利用MeSH词表(医学主题词)来改进医学文档的分类,并基于概念生成新的表示方法。本研究采用了两种著名的数据挖掘算法C4.5和KNN,并将其与常规的词干表示进行了比较。通过使用领域本体中的概念和上位词对向量进行丰富,显著提升了其表示效果,这对于良好的分类是至关重要的。在基准生物医学收集Ohsumed上进行的实验证实了本方法的重要性,本体分类的性能较传统表示(词干)提高了30%。
作者:Zakaria Elberrichi, Belaggoun Amel, Taibi Malika
论文ID:1207.0446
分类:Information Retrieval
分类简称:cs.IR
提交时间:2012-07-03