学术文档的多任务和多领域评估框架下基于PDF信息提取工具的基准比较
摘要:从学术PDF文档中提取信息对于许多索引、检索和分析用例至关重要。选择最佳工具来提取特定内容元素是困难的,因为有许多技术不同的工具可供选择,但是最近的性能基准测试很少见。此外,这些基准测试通常仅涵盖一些内容元素,如标题元数据或引用文献,并使用特定学科的较小数据集。我们提供了一个更大更多样的评估框架,支持比大多数相关数据集更多的提取任务。我们的框架基于DocBank,这是一个跨领域数据集,由来自arXiv的50万篇研究论文的500K页注释内容元素组成。使用新的框架,我们对十个免费可用的工具进行了基准测试,以从学术PDF文档中提取文档元数据、引用文献、表格和其他内容元素。GROBID获得了最佳的元数据和引用提取结果,其次是CERMINE和Science Parse。对于表格提取,Adobe Extract的性能优于其他工具,尽管与其他内容元素相比,其性能要低得多。所有工具都难以提取列表、页脚和方程。我们得出结论,需要更多的研究来改进和组合工具,以实现大多数内容元素的令人满意的提取质量。我们发布的数据和代码是公开的,以促进此目标的实现。
作者:Norman Meuschke, Apurva Jagdale, Timo Spinde, Jelena Mitrovi''c, Bela Gipp
论文ID:2303.09957
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-03-20