基于自然语言处理的软件工具在元基因组测序数据分析中的EDAM语义注释分类

摘要:根据描述,我们使用机器学习方法开发了一个分类系统,将微生物组学软件工具分为13个类别(11个EDAM的语义标注和两个病毒特定类别)。我们使用了三种分类器(朴素贝叶斯、逻辑回归和随机森林),使用了15种文本特征提取技术(TF-IDF、GloVe、基于BERT的模型等)。手工筛选出的数据集包括224个软件工具,并包含工具出版物的摘要和方法部分的文本。在精确与召回曲线下的面积得分为0.85的情况下,使用逻辑回归、BioBERT用于文本嵌入以及仅使用摘要文本的最佳分类性能。所提出的系统能够准确和统一地识别微生物组学数据分析工具和任务,这是构建微生物组学数据分析流程的关键一步。

作者:Kaoutar Daoud Hiri, Matjav{z} Hren, Tomav{z} Curk

论文ID:2210.00831

分类:Genomics

分类简称:q-bio.GN

提交时间:2022-10-19

PDF 下载: 英文版 中文版pdf翻译中