多模式的大语言模型(MLLM)仍在视觉问题回答(VQA)中的复杂推理任务(VQA)中挣扎。尽管当前的方法通过合并视觉提示来提出,但我们的研究发现了临界局限性:这些方法不加选择地注释每个视觉问题的所有检测到的对象,从而产生过多的视觉标记,从而降低任务性能。这个问题主要源于缺乏关注关键视觉元素的关注,提出了两个重要问题:所有对象是否同样重要,所有问题是否都需要视觉提示?由双重过程理论激发,该理论区分了人类推理中的本能和故意认知模式,我们提出了重点,一种动态地适应问题的复杂性,将快速直观的判断与有意的分析推理相结合,以增强MLLM的视觉方式推理能力 ...

0 0 0 0 2025/08/13 arXiv:2506.00806v1 starshine

援助的视觉计划(VPA)旨在根据显示用户进度的视频来预测实现指定目标所需的用户行动的顺序。尽管多模式大语言模型(MLLM)的最新进展显示出令人鼓舞的视频理解结果,但长远的视觉计划仍然是一个具有挑战性的问题。我们在培训大型MLLM的基于视频计划任务的大型MLLM中发现了两个挑战:(1)稀缺程序注释,限制了模型有效学习程序任务动态的能力,以及(2)与释放相比,自然语言相比,明确捕获可视化计划的结构化动作空间的下一步预测目标效率低下 ...

0 0 0 0 2025/08/12 arXiv:2507.15130v1 starshine

多模式大语言模型(MLLM)的最新进步,尤其是通过可验证的奖励(RLVR)的加强学习,已大大提高了其推理能力。但是,关键的差距仍然存在:这些模型在动态空间相互作用上挣扎,这对于现实世界应用至关重要。为了弥合这一差距,我们介绍了M2-Rounowing-7B,该模型旨在在一般和空间推理中表现出色 ...

0 0 0 0 2025/08/06 arXiv:2507.08306v1 starshine

推理是大型语言模型(LLM)的关键功能,尤其是应用于复杂的任务,例如数学问题解决。但是,多模式推理研究仍然需要进一步探索模式一致性和培训成本。这些方法中的许多方法都依赖其他数据注释和基于规则的奖励来增强理解和推理能力,从而大大提高培训成本并限制可扩展性 ...

0 0 1 2 2025/08/06 arXiv:2507.06999v1 starshine

尽管在多模式推理方面取得了显着进步,但在一般情况下,领先的多模式大语言模型(MLLM)仍然在以视觉为中心的多模式推理任务上表现不佳。这一短缺源于它们主要依赖基于逻辑和基于知识的慢速思维策略,而对数学和科学等领域有效,但在推理过程中未能有效地整合视觉信息。因此,这些模型通常无法充分地接地视觉提示,从而在需要多种合理的视觉解释和推论的任务中表现出色 ...

0 0 0 0 2025/08/06 arXiv:2506.01078v1 starshine

我们提出了LogicVista,这是一种评估基准,该基准评估了视觉上下文中多模式大语言模型(MLLM)的综合逻辑推理能力。 MLLM的最新进展表明了各种迷人的能力,从基于图像的诗歌到执行数学推理。但是,仍然缺乏对MLLM在逻辑推理任务中的熟练程度的系统评估,这对于诸如导航和解决难题之类的活动至关重要 ...

0 0 0 0 2025/08/06 arXiv:2407.04973v1 starshine

图像分类是机器视觉智能的最基本功能之一。在这项工作中,我们使用视觉上的语言模型(VLM)(例如GPT-4V和LLAVA)重新访问图像分类任务。我们发现,尽管经常将夹子用作视觉编码器并具有更多参数,但现有的专有和公共VLMS尽管经常使用剪辑作为视觉编码器,但在标准图像分类基准等标准图像分类基准(例如ImageNet)上的表现非常低 ...

0 0 0 0 2025/08/06 arXiv:2405.18415v2 starshine

最近的研究证明了LLM测试时间缩放的有效性。但是,现有的激励LLMS深思熟虑能力的方法通常需要大规模的数据或重大的培训工作。同时,尚不清楚如何提高功能较低的基本模型的思维能力 ...

0 0 1 1 2025/03/13 arXiv:2502.12853v1 starshine

我们提出了MM-Eureka,这是一种多模式推理模型,成功地将基于规则的大规模强化学习(RL)扩展到了多模式推理。尽管基于规则的RL在提高LLMS在文本域中的推理能力方面取得了巨大的成功,但其在多模式设置中的应用仍然具有挑战性。我们的工作重现了多模式空间中基于文本的RL系统(例如DeepSeek-R1)的关键特征,包括准确奖励和响应长度的稳定增加以及反射行为的出现 ...

0 0 1 1 2025/03/13 arXiv:2503.07365v1 starshine