科学文献中的多模态机器学习用于定理和证明提取-arXiv论文预印本中文版

科学文献中的多模态机器学习用于定理和证明提取

摘要：用于数学领域的学术论文中包含了定理、命题等数学陈述以及它们的证明。从文章的PDF表示中提取它们需要理解科学文本以及可视化和基于字体的指示。我们将这个问题作为一个多模态分类问题，使用文本、字体特征和PDF的位图图像渲染作为不同的模态。在本文中，我们提出了一种基于多模态机器学习的定理样环境和证明提取方法，该方法基于通过各个单一模态分类器提取的特征的后期融合，并考虑了文档中块的顺序。对于文本模态，我们在11 GB的科学语料库上预训练了一个新的语言模型；实验证明，在我们的任务上，与在160 GB上预训练的模型（RoBERTa）相比，我们的模型具有类似的性能，收敛速度更快，同时需要更少的微调数据。基于字体的信息依赖于对每个块中的字体名称和大小序列进行128个单元的LSTM训练。使用一个针对每个图像块进行分类的EfficientNetv2深度网络来处理位图渲染。最后，一个简单的CRF方法利用多模态模型的特征以及块序列的信息。实验结果显示了使用多模态方法相对于任何单一模态的优势，以及使用CRF模型对块序列进行建模的重大性能改进。

作者：Shrey Mishra, Antoine Gauquier, Pierre Senellart

论文ID：2307.09047

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-07-19

PDF 下载： 英文版中文版pdf翻译中