与SARS-CoV-2和COVID-19相关的生物医学自然语言处理的英文词典、黄金标准和白银标准语料库

摘要:自然语言处理(NLP)工具的自动化信息提取在从大量的COVID-19出版物、报告和社交媒体帖子中获得系统洞见时是必需的,这远远超出了人类的处理能力。NLP面临的一个关键挑战是术语的广泛变化,用于描述医学实体,这在这种新出现的疾病中尤为明显。在这里,我们提出了一个NLP工具包,包括非常大的SARS-CoV-2(包括变种名称)和COVID-19的英语同义词词典,可以与基于词典的NLP工具一起使用。我们还提供了使用这些词典生成的银标准语料库以及由PubMed摘要手动注释为疾病、病毒、症状、蛋白质/基因、细胞类型、化学物质和物种词汇的金标准语料库,可用于训练和评估与COVID-19相关的NLP工具。还包括了可用于扩展银标准语料库或文本挖掘的注释代码。该工具包可以在GitHub(https://github.com/Aitslab/corona)和zenodo(https://doi.org/10.5281/zenodo.6642275)上免费获取。该工具包可用于与COVID-19危机相关的各种文本分析任务,并已被用于创建COVID-19知识图谱、研究COVID-19相关术语的可变性和演变以及开发和评估文本挖掘工具。

作者:Salma Kazemi Rashed, Rafsan Ahmed, Johan Frid, Sonja Aits

论文ID:2003.09865

分类:Other Quantitative Biology

分类简称:q-bio.OT

提交时间:2022-06-15

PDF 下载: 英文版 中文版pdf翻译中