科学文章中文档布局分析中的泛化能力:图表与标题提取

摘要:缺乏泛化性是文档布局分析领域中已知的问题,即在一个数据集上训练的模型无法为不同的数据集提供准确的结果。因此,当模型用于定位科学文献中的重要页面对象,如图表、标题和数学公式时,该模型通常无法成功应用于新的领域。虽然已经提出了几种解决方案,包括更新的深度学习模型、更大的手工标注数据集和生成大规模的合成数据集,但迄今为止,还没有“灵丹妙药”能够将在特定领域或历史时期训练的模型转化为新领域。在这里,我们将介绍我们正在进行的工作,将我们的文档布局分析模型从历史天体物理文献转化为HathiTrust美国联邦文献收集中更大规模的科学文档。我们利用这个例子来突显文档布局分析社区中一些泛化性问题,并讨论解决这些问题的几个挑战和可能的解决方案。本工作的所有代码都可以在The Reading Time Machine GitHub存储库(https://github.com/ReadingTimeMachine/htrc\_short\_conf)上找到。

作者:Jill P. Naiman

论文ID:2301.10781

分类:Digital Libraries

分类简称:cs.DL

提交时间:2023-01-27

PDF 下载: 英文版 中文版pdf翻译中