视觉语言模型的实例级自适应调整和缓存
摘要:大规模视觉语言模型(LVLMs)通过大量图像文本对进行预训练,在视觉表示方面取得了显著的成功。然而,现有的将LVLMs转移到下游任务的范例面临两个主要挑战。首先,在计算后文本特征保持不变,不能根据图像特征进行调整,降低了模型的适应性。其次,模型的输出仅依赖于文本和图像特征之间的相似性,过度依赖于LVLMs。为了解决这两个挑战,我们引入了一种新颖的双分支模型,名为实例自适应调整和缓存(ATC)。具体而言,其中一个分支实现了我们提出的ConditionNet,指导图像特征形成一个根据图像特征调整的自适应文本缓存,实现实例级的推断,提高了模型的适应性。另一个分支引入了图像之间的相似性,并结合了可学习的视觉缓存,旨在解耦新知识和先前知识,使模型能够获取新知识同时保留先前知识。模型的输出由这两个分支共同确定,从而克服了仅依赖LVLMs的现有方法的局限性。此外,我们的方法需要有限的计算资源来调整参数,但在11个基准数据集上优于现有方法。
作者:Chunjin Yang, Fanman Meng, Shuai Chen, Mingyu Liu and Runtong Zhang
论文ID:2307.15983
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-01