科学文章中文档布局分析中的泛化能力：图表与标题提取-arXiv论文预印本中文版

科学文章中文档布局分析中的泛化能力：图表与标题提取

摘要：缺乏泛化性是文档布局分析领域中已知的问题，即在一个数据集上训练的模型无法为不同的数据集提供准确的结果。因此，当模型用于定位科学文献中的重要页面对象，如图表、标题和数学公式时，该模型通常无法成功应用于新的领域。虽然已经提出了几种解决方案，包括更新的深度学习模型、更大的手工标注数据集和生成大规模的合成数据集，但迄今为止，还没有“灵丹妙药”能够将在特定领域或历史时期训练的模型转化为新领域。在这里，我们将介绍我们正在进行的工作，将我们的文档布局分析模型从历史天体物理文献转化为HathiTrust美国联邦文献收集中更大规模的科学文档。我们利用这个例子来突显文档布局分析社区中一些泛化性问题，并讨论解决这些问题的几个挑战和可能的解决方案。本工作的所有代码都可以在The Reading Time Machine GitHub存储库（https://github.com/ReadingTimeMachine/htrc\_short\_conf）上找到。

作者：Jill P. Naiman

论文ID：2301.10781

分类：Digital Libraries

分类简称：cs.DL

提交时间：2023-01-27

PDF 下载： 英文版中文版pdf翻译中