在大型多模态模型(LMM)领域,有效的模态对齐至关重要,但常常受到高质量图像文本数据稀缺的限制。为了解决这个瓶颈,我们引入了ShareGPT4V数据集,这是一个开创性的大规模资源,拥有120万个高度描述性的字幕,其多样性和信息内容超越了现有数据集,涵盖了世界知识、物体属性、空间关系和审美评价 ...
对我们多样化和开放世界的自动视觉理解需要计算机视觉模型能够很好地概括,并且对特定任务进行最少的定制,类似于人类视觉。计算机视觉基础模型在多样化的大规模数据集上进行训练,并且可以适应各种下游任务,对于解决现实世界计算机视觉应用的任务至关重要。而现有的视觉基础模型如CLIP、ALIGN、无道2. ...
这项工作呈现了 Depth Anything V2。在不追求花哨技术的情况下,我们的目标是揭示重要的发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与 V1 相比,该版本通过三个关键实践产生了更精细、更稳健的深度预测:1)用合成图像替换所有标记的真实图像,2)扩大教师模型的容量,3)通过以下方式教授学生模型:大规模伪标记真实图像的桥梁 ...
我们推出 VLMEvalKit:一个用于评估基于 PyTorch 的大型多模态模型的开源工具包。该工具包旨在为研究人员和开发人员提供一个用户友好且全面的框架,以评估现有的多模态模型并发布可重复的评估结果。在 VLMEvalKit 中,我们实现了 70 多个不同的大型多模态模型,包括专有 API 和开源模型,以及 20 多个不同的多模态基准 ...
大型视觉语言模型 (LVLM) 在视觉对话和实体导航等通用多模式应用中显示出显着的进步。然而,现有的多模态评估基准涵盖了有限数量的测试基本能力的多模态任务,在跟踪 LVLM 开发方面存在不足。在这项研究中,我们提出了 MMT-Bench,这是一个综合基准,旨在评估需要专业知识和深思熟虑的视觉识别、定位、推理和规划的大规模多模态任务中的 LVLM ...
扩大对比语言图像预训练(CLIP)对于增强视觉和多模态模型至关重要。我们推出了 EVA-CLIP-18B,这是迄今为止最大、最强大的开源 CLIP 模型,拥有 180 亿个参数。仅查看了 60 亿个训练样本,EVA-CLIP-18B 就取得了出色的 80 分 ...
我们引入了Florence-2,这是一个新颖的建筑基础模型,具有针对各种计算机和建筑语言任务的统一的、基于提示的表示。虽然现有的大型建筑模型在迁移学习方面表现出色,但它们很难通过简单的这种指令执行各种任务,而意味着处理各种空间层次结构和语义粒度的复杂性。 Florence-2 旨在将文本提示作为任务指令,并以文本形式生成理想的结果,无论是字幕、对象检测、基础还是分割... ...
在自然文档上训练的大型多模态模型(交错图像和文本)在各种多模态基准上应该在图像文本上训练的模型。然而,用于训练这些模型的数据集尚未发布,收集过程也我们介绍了 OBELICS 数据集,这是一个开放的网络规模的完全交错的图像文本文档过滤数据集,包含从 Common Crawl 中提取的 1.41 亿个网页、3.53 亿个关联图像和 1150 亿个文本标记…… ...
最近的工作 CLIPA 提出了 CLIP 训练的逆缩放定律——使用的图像/文本编码器越大,可应用于训练的图像/文本标记的序列长度越短。这一发现使我们能够训练高性能 CLIP 模型,并显着减少计算量。在此工作的基础上,我们特此提出 CLIPA-v2 的两个关键贡献 ...