科学文献中的多模态机器学习用于定理和证明提取
摘要:用于数学领域的学术论文中包含了定理、命题等数学陈述以及它们的证明。从文章的PDF表示中提取它们需要理解科学文本以及可视化和基于字体的指示。我们将这个问题作为一个多模态分类问题,使用文本、字体特征和PDF的位图图像渲染作为不同的模态。在本文中,我们提出了一种基于多模态机器学习的定理样环境和证明提取方法,该方法基于通过各个单一模态分类器提取的特征的后期融合,并考虑了文档中块的顺序。对于文本模态,我们在11 GB的科学语料库上预训练了一个新的语言模型;实验证明,在我们的任务上,与在160 GB上预训练的模型(RoBERTa)相比,我们的模型具有类似的性能,收敛速度更快,同时需要更少的微调数据。基于字体的信息依赖于对每个块中的字体名称和大小序列进行128个单元的LSTM训练。使用一个针对每个图像块进行分类的EfficientNetv2深度网络来处理位图渲染。最后,一个简单的CRF方法利用多模态模型的特征以及块序列的信息。实验结果显示了使用多模态方法相对于任何单一模态的优势,以及使用CRF模型对块序列进行建模的重大性能改进。
作者:Shrey Mishra, Antoine Gauquier, Pierre Senellart
论文ID:2307.09047
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-19