从PDF文章中提取结构化引用:评估文献引用提取和解析工具
摘要:从PDF论文中提取参考文献的许多解决方案已经被提供。机器学习、基于规则和正则表达式的方法是在解决这一任务的工具中最常用的方法之一。本研究旨在确定并评估仅能识别、提取和解析参考文献的工具,给定一个以PDF格式的全文文章。我们确定了七个工具:Anystyle、Cermine、ExCite、Grobid、Pdfssa4met、Scholarcy和Science Parse。我们将它们与包含27个主题领域的56篇PDF文章的语料库进行了比较和评估。事实上,Anystyle获得了最好的综合得分,其次是Cermine。然而,在一些主题领域中,其他工具在特定任务中取得了更好的结果。
作者:Alessia Cioffi, Silvio Peroni
论文ID:2205.14677
分类:Digital Libraries
分类简称:cs.DL
提交时间:2022-09-07