参考表达理解(REC)涉及基于文本描述本地定位目标实例。 REC的最新进展是由COGVLM等大型多模型模型(LMM)驱动的,COGVLM在Refcoco上的精度达到了92.44% ...
本文的目的是提高图像中开放式视频对象的通用性和准确性。为了提高一般性,我们为计数任务重新利用了一个开放式视频计检测基础模型(接地),并通过引入模块来使目标对象通过视觉示例来计数来扩展其功能。反过来,这些新功能 - 能够通过多模式(文本和示例)指定目标对象 - 可提高计数准确性 ...
这项工作提供了一个简单而有效的工作流程,用于自动扩展指令遵循数据的数据,以在复杂的指令下引起VLM的像素级接地功能。特别是,我们解决了基于文本指导的基础中的五个关键现实世界挑战:幻觉的参考,多对象场景,推理,多层次和部分级别的参考。通过利用知识培训的教师模型的知识蒸馏,我们的方法产生了与现有像素级注释相关的高质量指导 - 响应对,从而最大程度地降低了对人类注释的需求 ...
当前用于图像字幕的最新方法采用基于区域的特征,因为它们提供了对象级信息,对于描述图像的内容至关重要;它们通常由对象检测器(例如更快的R-CNN)提取。但是,他们有几个问题,例如缺乏上下文信息,检测不准确的风险以及高计算成本。可以通过使用基于网格的功能来解决前两个 ...
现有的推理细分方法通常使用图像文本对和相应的掩码标签微调多模式大型语言模型(MLLMS)。但是,他们在没有明确推理过程的情况下对分布场景的概括有限。尽管最近的努力通过群体相关政策优化(GRPO)利用强化学习来增强推理能力,但它们通常会遭受过度思考的痛苦 - 不论任务复杂性如何产生统一的冗长推理链 ...
传统的视觉接地方法主要集中于具有简单文本参考的单片图像。但是,将这些方法扩展到涉及隐式和复杂说明的真实情况,尤其是与多个图像结合使用,这带来了重大挑战,这主要是由于缺乏各种多模式环境中的先进推理能力。在这项工作中,我们旨在解决更实用的通用基础任务,并提出Univg-R1(用于通用视觉接地的推理指导的多模式大型语言模型(MLLM),这通过加强学习(RL)与冷启动数据相结合,增强了推理能力 ...
在基于教学的图像编辑(IIE)领域取得了重大进展。但是,评估这些模型构成了重大挑战。该领域的关键要求是建立一个全面的评估基准,用于准确评估编辑结果并为其进一步发展提供宝贵的见解 ...
我们介绍了InternVL3,这是Intervl系列的重大进步,该系列具有本地多模式预训练范式。 Intervl3并没有将仅文本大语模型(LLM)调整为支持视觉输入的多模式大型语言模型(MLLM),而是在单个预训练阶段中共同从多样化的多模式数据和纯文本公司中获得多模式和语言能力。这种统一的训练范式有效地解决了MLLM的常规事后培训管道中通常遇到的复杂性和一致性挑战 ...
视觉指导调整(VIT)已成为一种至关重要的技术,用于使多模式大型语言模型(MLLMS)熟练遵循用户说明。然而,在理解其自动选择的高质量指令调整数据和框架的属性上,存在很大的差距。为了解决这个问题,我们介绍了MLLM-Selector,这是一种自动化方法,通过权衡必要性和多样性来识别VIT的有价值数据 ...
多模态大语言模型(MLLM)的最新进展显着提高了它们对单个图像的细粒度感知和对多个图像的一般理解。然而,现有的 MLLM 在复杂的多图像场景中实现精确接地仍然面临挑战。为了解决这个问题,我们首先探索一个思想链(CoT)框架,它将单图像基础与多图像理解相结合 ...