COPA:通过协作的目标和补丁文本对齐实现高效的视觉-语言预训练
摘要:基于对象检测的视觉-语言预训练(VLP)方法可以获得精细的对象-文本对齐知识,但计算推理代价昂贵。最近的基于视觉-Transformer(ViT)的方法虽然可以避免这个问题,却在没有详细的跨模态对齐信息的情况下处理长的视觉序列。本文介绍了一种基于ViT的VLP技术,通过一个新颖的补丁-文本对齐机制高效地融合对象信息。具体而言,我们将对象级信号转换为补丁级信号,并设计了一个补丁-文本对齐的预训练任务(PTA),以学习一个具有文本意识的补丁检测器。通过在5%的训练图像中使用现成的精细对象注释,我们以端到端的方式联合训练PTA和其他传统的VLP目标,绕过对象检测的高计算成本,并得到一个能够准确检测与文本相关的补丁的有效补丁检测器,从而显著减少了补丁序列并加速了ViT主干中的计算。我们在各种广泛使用的基准测试上进行的实验证明,与之前的VLP模型相比,我们的方法速度提高了近88%,同时在模型大小和数据规模相似的下游任务上保持了具有竞争力或优越的性能。
作者:Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Ji Zhang, Fei Huang
论文ID:2308.03475
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-08