图像字幕通常依赖于基于参考的自动评估,将机器字幕与人类编写的字幕进行比较。这与人类评估字幕质量的无参考方式形成对比。在本文中,我们报告了令人惊讶的实证发现,即 ...
偏好建模技术,例如直接偏好优化(DPO),在增强大语言模型(LLM)的泛化能力方面已被证明是有效的。然而,在涉及遵循视频指令的任务中,提供信息反馈,尤其是检测生成的响应中的幻觉,仍然是一个重大挑战。先前的研究已经探索使用大型多模态模型(LMM)作为奖励模型来指导偏好建模,但它们准确评估生成的响应与相应视频相比的真实性的能力尚未最终确定 ...
视觉指令调优在增强大型多模态模型(LMM)的能力方面取得了长足的进步。然而,现有的开放式 LMM 主要关注单图像任务,其在多图像场景中的应用仍然很少被探索。此外,之前的 LMM 研究分别处理不同的场景,因此不可能用新出现的功能来概括跨场景 ...
尽管视觉语言模型(VLM)作为多功能视觉助手具有卓越的功能,但现有的VLM框架中仍然存在两个重大挑战:(1)预训练和视觉指令调整方面缺乏任务多样性,(2)GPT中的注释错误和偏差4.综合指令调整数据。这两个挑战都会导致普遍性差、幻觉和灾难性遗忘等问题。为了应对这些挑战,我们构建了Vision-Flan,这是迄今为止最值得挖掘的公开内容视线指令调整数据集,包含来自学术数据集的187个不同任务和1,664,261个实例,每个任务都附有专家编写的指令... ...
数据管理是大规模预训练的重要组成部分。在这项工作中,我们证明联合选择大规模数据进行学习比选择独立样本更有效。多模态对比目标揭示了数据之间的因果关系,从而自然地产生了快速批量联合可学习性的标准... ...
我们推出了 LLaVA-OneVision,这是一个开放式大型多模态模型 (LMM) 系列,通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明,LLaVA-OneVision 是第一个能够在三个重要的计算机视觉场景(单图像、多图像和视频场景)中同时突破开放式 LMM 性能极限的单一模型。重要的是,LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习,从而产生新的能力 ...
大型视觉语言模型 (LVLM) 的最新进展使得能够在语言模型中处理多模式输入,但需要大量的计算资源进行部署,尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据来缩小传统规模的 LVLM 和资源友好型精简版之间的性能差距。为此,我们利用 GPT-4V 生成详细说明、复杂推理指令和图像详细答案的能力来创建合成数据集 ...
当前的多模态大语言模型(MLLM)通常通过连接器(例如MLP)将预训练的LLM与另一个预训练的视觉转换器集成,从而赋予LLM视觉功能。然而,MLLM中的嵌入向量策略(基于嵌入创建表的结构文本嵌入和由视觉编码器直接生成的连续嵌入)之间的不一致,给和视觉文本信息的更无缝融合带来了挑战。我们提出了Ovis,一种新颖的MLLM架构,旨在结构上视觉视觉和文本嵌入... ...
最近多模态大型语言模型(MLLM)的突破从根本上突破了人工智能研究和行业的格局,为迈向下一个人工智能里程碑提供了光明的道路。然而,在实际中仍然存在阻碍MLLM的重大挑战应用中实用。最显着的挑战来自于具有大量参数和大量计算的 MLLM 的巨大成本运行...... ...
数据在大型语言模型(LLM)的训练中发挥着基础作用。有效的数据管理,特别是在制定合适的训练数据集方面,对于在预训练和监督微调阶段增强模型性能和提高训练效率具有重要意义。尽管数据管理非常重要,但当前的研究界仍然未能对管理策略选择背后的基本原理、其后果、评估整理数据集的方法以及对改进策略的持续追求进行系统分析 ...