在这项工作中,我们讨论构建高性能的多模式大型语言模型(MLLM)。我们特别研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细和全面的消融,我们确定了几个关键的设计经验教训 ...

0 0 0 0 2024/05/02 arXiv:2403.09611v4 wuweiqun

大型视觉语言模型最近取得了显着的进展,表现出对视觉信息的强大感知和推理能力。然而,如何有效评估这些大型视觉语言模型仍然是阻碍未来模型发展的主要障碍。 VQAv2 或 COCO Caption 等传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和不稳健的评估指标 ...

0 0 0 0 2024/04/24 arXiv:2307.06281v3 wuweiqun

空间关系是人类认知的基本组成部分。然而,它们以多种方式用自然语言表达,并且之前的工作表明当前的视觉和语言模型(VLM)难以捕获关系信息。在本文中,我们提出了视觉空间推理(VSR),这是一个包含超过 10k 个自然文本图像对的数据集,具有 66 种英语空间关系(例如:下面、前面和面向) ...

0 0 0 0 2024/04/24 arXiv:2205.00363v3 wuweiqun

我们引入了 GQA,这是一个用于现实世界视觉推理和组合问答的新数据集,旨在解决以前 VQA 数据集的主要缺点。我们开发了一个强大而稳健的问题引擎,它利用场景图结构创建 2200 万个不同的推理问题,所有问题都带有代表其语义的功能程序。我们使用这些程序来严格控制答案分布,并提出一种新的可调平滑技术来减轻问题偏差 ...

0 0 0 0 2024/04/09 arXiv:1902.09506v3 wuweiqun

近年来,多模态大语言模型取得了显着的进步,但它们仍然面临着一个被称为“幻觉问题”的常见问题,即模型生成的文本描述不准确地描述或完全根据相关图像捏造内容。本文介绍了一种新颖的解决方案,即幻觉感知直接偏好优化(HA-DPO),它将幻觉问题重新定义为偏好选择任务。该模型经过训练,在出现同一图像的两种响应(一种是准确的,一种是幻觉的)时,有利于非幻觉反应 ...

0 0 0 0 2024/04/03 arXiv:2311.16839v2 wuweiqun

在生产中,多模态大语言模型(MLLM)有望支持互换图像和文本模态的多轮查询。然而,当前使用视觉问答(VQA)数据集训练的 MLLM 可能会出现退化,因为 VQA 数据集缺乏训练底层语言模型的原始文本指令数据集的多样性和复杂性。为了解决这种具有挑战性的退化问题,我们首先收集一个轻量级(6k 条目)VQA 偏好数据集,其中 Gemini 以细粒度方式对 5 个质量指标的答案进行注释,并研究标准监督微调、拒绝采样、直接偏好优化 (DPO)和 SteerLM ...

0 0 0 0 2024/04/03 arXiv:2402.10884v1 wuweiqun

部署的多模式系统可能会以评估人员没有预料到的方式失败。为了在部署之前发现这些故障,我们引入了 MultiMon,这是一个自动识别系统故障的系统——对模型故障模式的可概括的自然语言描述。为了发现系统性故障,MultiMon 抓取了一个语料库来寻找错误协议的示例:输入产生相同的输出,但不应该产生相同的输出 ...

0 0 0 0 2024/04/03 arXiv:2306.12105v2 wuweiqun

我们提出了 MM-Vet,这是一种评估基准,用于检查复杂多模态任务上的大型多模态模型(LMM)。最近的 LMM 表现出了各种有趣的能力,例如解决黑板上写的数学问题、推理新闻图像中的事件和名人以及解释视觉笑话。模型的快速进步给评估基准的开发带来了挑战 ...

0 0 0 0 2024/04/25 arXiv:2308.02490v3 wuweiqun

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)