与语言模型(LLM)代理相比,训练视觉语言模型(VLM)代理的一个关键挑战在于从文本状态到复杂视觉观察的转变。这种转变引入了部分可观察性并需要强大的世界建模。我们问:VLM 智能体能否通过显式视觉状态推理构建内部世界模型?为了解决这个问题,我们通过强化学习(RL)在架构上强制执行和奖励代理的推理过程,将其表述为部分可观察马尔可夫决策过程(POMDP)。我们发现,将代理的推理分解为状态估计(“当前状态是什么?”)和转换建模(“接下来会发生什么?”)对于成功至关重要,正如五种推理策略所证明的那样。我们对代理如何表示内部信念的调查表明,最佳表示是依赖于任务的:自然语言擅长捕获一般任务中的语义关系,而结构化格式对于精确操作和控制是不可或缺的。基于这些见解,我们设计了一个世界建模奖励,为准确的状态预测提供密集的回合级监督,并引入双层一般优势估计(Bi-Level GAE)来进行回合感知信用分配。通过这种形式的视觉状态推理,3B 参数模型在五个不同的智能体基准测试中获得了 0.82 的分数,比未经训练的对应模型 (0.21) 提高了 3 美元\倍$,并且优于 GPT-5 (0.75)、Gemini 2.5 Pro (0.67) 和 Claude 4.5 (0.62) 等专有推理模型。所有实验均在我们的 VAGEN 框架内进行,这是一个可扩展的系统,用于在不同的视觉环境中训练和分析多轮 VLM 代理。代码和数据可通过此 https URL 公开获取 ...
在学习动作识别过程中,模型通常会针对图像的对象识别(例如 ImageNet)进行预训练,然后针对视频的目标动作识别进行微调。这种方法取得了良好的经验性能,特别是在最近基于 Transformer 的视频架构中。虽然最近许多工作旨在设计更先进的 Transformer 架构用于动作识别,但在如何训练视频 Transformer 方面所做的努力却较少。在这项工作中,我们探索了几种培训范例并提出了两个发现。首先,视频转换器受益于对不同视频数据集和标签空间的联合训练(例如,Kinetics 注重外观,而 SomethingSomething 注重运动)。其次,通过进一步与图像(作为单帧视频)进行协同训练,视频转换器可以学习更好的视频表示。我们将这种方法称为动作识别联合训练视频和图像(CoVeR)。特别是,当在基于 TimeSFormer 架构的 ImageNet-21K 上进行预训练时,CoVeR 将 Kinetics-400 Top-1 准确率提高了 2.4%,将 Kinetics-600 提高了 2.3%,将 SomethingSomething-v2 提高了 2.3%。当按照先前的最先进技术在更大规模的图像数据集上进行预训练时,通过简单的时空视频转换器,CoVeR 在 Kinetics-400 (87.2%)、Kinetics-600 (87.9%)、Kinetics-700 (79.8%)、SomethingSomething-v2 (70.9%) 和 Moments-in-Time (46.1%) 上取得了最佳结果 ...
由于能够提取相关的时空视频嵌入,视觉变换器(ViT)是目前视频动作理解中表现最好的模型。然而,它们在领域或数据集上的泛化有些有限。相比之下,视觉语言模型 (VLM) 表现出了出色的泛化性能,但目前无法处理视频。因此,他们无法提取对于动作理解至关重要的时空模式。在本文中,我们提出了四层提示(FTP)框架,该框架利用了 ViT 和 VLM 的互补优势。我们保留了 ViT 强大的时空表示能力,但通过将它们与 VLM 输出对齐来改进视觉编码,使其更加全面和通用。 FTP 框架添加了四个特征处理器,专注于视频中人类动作的特定方面:动作类别、动作组件、动作描述和上下文信息。 VLM 仅在训练期间使用,推理所需的计算成本极低。我们的方法始终如一地产生最先进的性能。例如,我们在 Kinetics-400 上实现了 93.8% 的 top-1 准确率,在 Something-Something V2 上实现了 83.4% 的显着 top-1 准确率,分别超过 VideoMAEv2 2.8% 和 2.6% ...
我们推出了 InternVideo2,这是一个新的视频基础模型 (ViFM) 系列,它在视频识别、视频文本任务和以视频为中心的对话方面取得了最先进的结果。我们的核心设计是一种渐进式训练方法,它将屏蔽视频建模、跨模态对比学习和下一个标记预测相结合,将视频编码器大小扩展到 6B 参数。在数据层面,我们通过对视频进行语义分割并生成视频音频语音字幕来优先考虑时空一致性。这改善了视频和文本之间的对齐。通过大量实验,我们验证了我们的设计,并在 60 多个视频和音频任务中展示了卓越的性能。值得注意的是,我们的模型在各种与视频相关的对话和长视频理解基准上优于其他模型,突显了其推理和理解较长上下文的能力。代码和模型可从此 https URL 获取 ...