PPN:用于复杂布局的关键信息提取的并行指针网络
摘要:信息关键提取(KIE)是一个具有挑战性的多模态任务,旨在从视觉丰富的文档中提取结构化的值语义实体。尽管取得了显著进展,但仍然存在两个主要挑战需要解决。首先,现有数据集的布局相对固定,语义实体类别数量有限,这使得这些数据集与复杂的现实场景之间存在显著差距。其次,现有方法采用两阶段管道策略,可能导致错误传播问题。此外,在出现未见过的语义实体类别的情况下,这些方法很难应用。为了解决第一个挑战,我们提出了一个名为复杂布局表单关键信息提取(CLEX)的新的大规模人工注释数据集,该数据集包含5,860个图像和1,162个语义实体类别。为了解决第二个挑战,我们引入了基于并行指针的网络(PPN),这是一个端到端模型,可以在零样本和少样本情况下应用。PPN利用语义实体之间的隐式线索来辅助提取,并且其并行提取机制使其能够同时和高效地提取多个结果。对CLEX数据集的实验表明,PPN优于现有的最先进方法,同时还提供了更快的推理速度。
作者:Kaiwen Wei, Jie Yao, Jingyuan Zhang, Yangyang Kang, Fubang Zhao, Yating Zhang, Changlong Sun, Xin Jin, Xin Zhang
论文ID:2307.10551
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-21