利用大型语言模型的知识为视觉语言模型提供提示,用于基于知识的视觉问答
摘要:基于知识的视觉问答是一项极具挑战和广泛关注的任务。先前的方法采用了大型语言模型(LLM)中的隐式知识来取得优秀的结果,但我们认为现有方法可能会导致对图像的偏见理解和解决问题所需的知识不足。本文提出了PROOFREAD-PROmpting视觉语言模型中的knoWledge From laRgE lAnguage moDel,这是一个新颖、轻量级和高效的基于知识的VQA框架,可以充分发挥视觉语言模型和大型语言模型各自的优势并相互协作。具体而言,我们提出的方法使用LLM明确获取知识,使用可以看到图像的视觉语言模型获得知识答案,并引入知识感知器来过滤掉对获取正确最终答案有害的知识。在两个数据集上的实验结果证明了我们方法的有效性。我们的方法在A-OKVQA数据集上两个设置上优于所有最先进的方法,并在OKVQA数据集上也取得了相对良好的性能。
作者:Yang Zhou, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
论文ID:2308.15851
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-31