面向多功能高效的视觉知识融合与预训练语言模型的跨模态适配器
摘要:通过多模态知识,人类学习语言。然而,由于只有文本预训练方案,大多数现有的预训练语言模型(PLM)在多模态信息方面受到限制。为了将视觉知识注入PLM,现有方法将视觉语言模型(VLM)的文本或图像编码器合并到PLM中,以对视觉信息进行编码并更新所有原始参数以进行知识融合。本文提出了一种新的即插即用模块,X-adapter,可以灵活地利用预训练VLM中学习到的对齐的视觉和文本知识,并高效地将它们注入到PLM中。具体地,我们在PLM中插入X-adapter,并且只有新增的参数在适应过程中进行更新。为了充分利用VLM的潜力,X-adapter包括两个子模块,即V-expert和T-expert,分别用于融合VLM的图像和文本表示。根据下游任务的不同,我们可以选择激活不同的子模块。实验结果表明,与PLM基线相比,我们的方法可以显著提高对象颜色推理和自然语言理解(NLU)任务的性能。
作者:Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang, Bei Yu
论文ID:2305.07358
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-29