学术文档的多任务和多领域评估框架下基于PDF信息提取工具的基准比较-arXiv论文预印本中文版

学术文档的多任务和多领域评估框架下基于PDF信息提取工具的基准比较

摘要：从学术PDF文档中提取信息对于许多索引、检索和分析用例至关重要。选择最佳工具来提取特定内容元素是困难的，因为有许多技术不同的工具可供选择，但是最近的性能基准测试很少见。此外，这些基准测试通常仅涵盖一些内容元素，如标题元数据或引用文献，并使用特定学科的较小数据集。我们提供了一个更大更多样的评估框架，支持比大多数相关数据集更多的提取任务。我们的框架基于DocBank，这是一个跨领域数据集，由来自arXiv的50万篇研究论文的500K页注释内容元素组成。使用新的框架，我们对十个免费可用的工具进行了基准测试，以从学术PDF文档中提取文档元数据、引用文献、表格和其他内容元素。GROBID获得了最佳的元数据和引用提取结果，其次是CERMINE和Science Parse。对于表格提取，Adobe Extract的性能优于其他工具，尽管与其他内容元素相比，其性能要低得多。所有工具都难以提取列表、页脚和方程。我们得出结论，需要更多的研究来改进和组合工具，以实现大多数内容元素的令人满意的提取质量。我们发布的数据和代码是公开的，以促进此目标的实现。

作者：Norman Meuschke, Apurva Jagdale, Timo Spinde, Jelena Mitrovi''c, Bela Gipp

论文ID：2303.09957

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-03-20

PDF 下载： 英文版中文版pdf翻译中