生物医学环境下基于内容的文章级主题分类

摘要:在分析学术出版物时,主题分类是一项重要的任务。一般来说,主要有两种方法:期刊级别的分类和文章级别的分类。我们提出了一种混合方法,利用自然语言处理中的嵌入技术,使用文章的元数据(标题、摘要、关键词等)标记了期刊级别的FoR(研究领域)分类,并将这些分类器应用于文章级别。我们在生物医学出版物的上下文中使用这种方法,利用Pubmed的元数据。使用FoR代码训练Fasttext分类器,并根据可用的元数据对出版物进行分类。结果显示,使用分层取样策略进行训练有助于减少由于领域分布不平衡而产生的偏差。该方法的实现提供在https://github.com/dataesr/scientific\_tagger。

作者:Eric Jeangirard

论文ID:2104.14800

分类:Digital Libraries

分类简称:cs.DL

提交时间:2021-05-12

PDF 下载: 英文版 中文版pdf翻译中