arxiv Towards Interpreting Visual Information Processing in Vision-Language Models

/documents/74936/

基本信息

文件基本信息

名称
Towards Interpreting Visual Information Processing in Vision-Language Models
描述
视觉语言模型 (VLM) 是处理和理解文本和图像的强大工具。我们研究了 LLaVA(一种著名的 VLM)的语言模型组件中视觉标记的处理。我们的方法侧重于分析对象信息的本地化、跨层视觉标记表示的演变以及集成视觉信息进行预测的机制。通过消融研究,我们证明,当删除特定于对象的标记时,对象识别准确度会下降 70% 以上。我们观察到,视觉标记表示在跨层的词汇空间中变得越来越可解释,这表明与图像内容对应的文本标记保持一致。最后,我们发现该模型从最后一个标记位置的精细表示中提取对象信息进行预测,反映了事实关联任务的纯文本语言模型中的过程。这些发现为 VLM 如何处理和集成视觉信息提供了重要的见解,弥合了我们对语言和视觉模型的理解之间的差距,并为更具可解释性和可控性的多模态系统铺平了道路 ...