面向多功能高效的视觉知识融合与预训练语言模型的跨模态适配器-arXiv论文预印本中文版

面向多功能高效的视觉知识融合与预训练语言模型的跨模态适配器

摘要：通过多模态知识，人类学习语言。然而，由于只有文本预训练方案，大多数现有的预训练语言模型（PLM）在多模态信息方面受到限制。为了将视觉知识注入PLM，现有方法将视觉语言模型（VLM）的文本或图像编码器合并到PLM中，以对视觉信息进行编码并更新所有原始参数以进行知识融合。本文提出了一种新的即插即用模块，X-adapter，可以灵活地利用预训练VLM中学习到的对齐的视觉和文本知识，并高效地将它们注入到PLM中。具体地，我们在PLM中插入X-adapter，并且只有新增的参数在适应过程中进行更新。为了充分利用VLM的潜力，X-adapter包括两个子模块，即V-expert和T-expert，分别用于融合VLM的图像和文本表示。根据下游任务的不同，我们可以选择激活不同的子模块。实验结果表明，与PLM基线相比，我们的方法可以显著提高对象颜色推理和自然语言理解（NLU）任务的性能。

作者：Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang, Bei Yu

论文ID：2305.07358

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中