视觉语言模型的实例级自适应调整和缓存-arXiv论文预印本中文版

视觉语言模型的实例级自适应调整和缓存

摘要：大规模视觉语言模型（LVLMs）通过大量图像文本对进行预训练，在视觉表示方面取得了显著的成功。然而，现有的将LVLMs转移到下游任务的范例面临两个主要挑战。首先，在计算后文本特征保持不变，不能根据图像特征进行调整，降低了模型的适应性。其次，模型的输出仅依赖于文本和图像特征之间的相似性，过度依赖于LVLMs。为了解决这两个挑战，我们引入了一种新颖的双分支模型，名为实例自适应调整和缓存（ATC）。具体而言，其中一个分支实现了我们提出的ConditionNet，指导图像特征形成一个根据图像特征调整的自适应文本缓存，实现实例级的推断，提高了模型的适应性。另一个分支引入了图像之间的相似性，并结合了可学习的视觉缓存，旨在解耦新知识和先前知识，使模型能够获取新知识同时保留先前知识。模型的输出由这两个分支共同确定，从而克服了仅依赖LVLMs的现有方法的局限性。此外，我们的方法需要有限的计算资源来调整参数，但在11个基准数据集上优于现有方法。

作者：Chunjin Yang, Fanman Meng, Shuai Chen, Mingyu Liu and Runtong Zhang

论文ID：2307.15983

分类：Multimedia

分类简称：cs.MM

提交时间：2023-08-01

PDF 下载： 英文版中文版pdf翻译中