随着大型视觉语言模型 (LVLM) 的快速发展,对高质量和多样化数据来协调这些模型的需求变得越来越重要。然而,事实证明,在人工监督下创建此类数据成本高昂且耗时。在本文中,我们研究了人工智能反馈对调整 LVLM 的规模监督的有效性 ...
大型视觉语言模型 (LVLM) 在将大型语言模型 (LLM) 与视觉输入集成方面取得了实质性进展,从而实现了高级多模态推理。尽管取得了成功,但一个持续存在的挑战是幻觉——生成的文本无法准确反映视觉内容——破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进,但主要解决生成阶段的症状,而不探究根本原因 ...
多模态大语言模型(MLLM)中的幻觉问题仍然是一个常见问题。尽管图像标记占据了 MLLM 输入序列的大部分,但探索图像标记与幻觉之间关系的研究却很有限。在本文中,我们分析了模型各层和头部的图像标记的注意力分数分布,揭示了一个有趣且常见的现象:大多数幻觉与图像标记的自注意力矩阵中的注意力池模式密切相关,其中浅层表现出密集的注意力汇,而较深层则表现出稀疏的注意力汇 ...
由于视觉信息表示所需的大量参数和额外输入标记,多模态大语言模型 (MLLM) 需要大量计算来进行推理。在此,我们介绍 Visual Tokens Withdrawal (VTW),这是一个即插即用的模块,可增强 MLLM 的快速推理能力。我们的方法受到我们观察到的两个有趣现象的启发:(1)LLM 中普遍存在的注意力集中现象在 MLLM 中也持续存在,这表明初始标记和最近的标记受到大多数关注,而中间视觉标记在 MLLM 中获得最少的关注。深层; (2) 信息迁移的存在,这意味着视觉信息被转移到 MLLM 的前几层内的后续文本标记 ...
大型视觉语言模型 (LVLM) 在多模式任务中表现出卓越的能力,但很容易误解视觉输入,常常导致幻觉和不可靠的输出。为了应对这些挑战,我们提出了 Dropout Decoding,这是一种新颖的推理时间方法,可以量化视觉标记的不确定性并有选择地掩盖不确定标记以改进解码。我们的方法通过将每个视觉标记投影到文本空间并将其分解为任意和认知成分来测量每个视觉标记的不确定性 ...
虽然大型视觉语言模型(LVLM)近年来迅速发展,但普遍存在的“幻觉”问题已成为一个重大瓶颈,阻碍了它们在现实世界的部署。现有方法主要从两个角度缓解这个问题:一种方法利用额外的知识,例如使用精选数据集调整 LVLM 的鲁棒指令或采用辅助分析网络,这不可避免地会产生额外成本。另一种方法称为对比解码,它通过手动干扰视觉或指令原始输入来诱发幻觉,并通过对比受干扰的 LVLM 和原始 LVLM 的输出来减轻幻觉 ...
最近的研究表明,大型视觉语言模型(LVLM)经常受到物体幻觉(OH)问题的困扰。为了缓解这个问题,我们引入了一种基于不安全子空间编辑模型权重的有效方法,在本文中我们将其称为 HalluSpace。通过伴随视觉内容的真实和幻觉文本提示作为输入,可以通过提取幻觉嵌入特征并删除 LVLM 中的真实表示来识别 HalluSpace ...
视觉语言模型 (VLM) 在短短几年内就彻底改变了计算机视觉模型的格局,开启了一系列令人兴奋的新应用,从零样本图像分类到图像字幕和视觉问答。与纯视觉模型不同,它们提供了一种通过语言提示访问视觉内容的直观方式。这些模型的广泛适用性促使我们思考它们是否也与人类视觉保持一致——具体来说,它们通过多模态融合在多大程度上采用了人类引起的视觉偏差,或者它们是否只是继承了纯视觉模型的偏差 ...
视觉语言模型(VLM)在受到对抗性攻击时可能会产生意想不到的有害内容,特别是因为它们的视觉功能会产生新的漏洞。现有的防御措施,例如输入预处理、对抗性训练和基于响应评估的方法,由于成本高昂,通常对于现实世界的部署来说是不切实际的。为了应对这一挑战,我们提出了 ASTRA,这是一种高效且有效的防御方法,通过自适应地引导模型远离对抗性特征方向来抵御 VLM 攻击 ...
大型视觉语言模型 (LVLM) 通常无法符合人类偏好,从而导致在没有适当视觉上下文的情况下生成误导性内容(也称为幻觉)等问题。解决这个问题的一个有希望的解决方案是使用人类偏好对齐技术,例如 best-of-n 采样和强化学习。然而,这些技术面临着训练视觉奖励模型(VRM)所需的视觉偏好数据稀缺所带来的困难 ...