从预先训练的视频生成主干初始化的世界动作模型(WAM)已经证明了机器人策略学习的巨大潜力。然而,现有方法面临两个阻碍性能和部署的关键瓶颈。首先,对未来视觉动态和相应动作的联合推理会产生大量的推理开销。其次,联合建模通常将视觉和运动表示纠缠在一起,使得运动预测的准确性在很大程度上取决于未来视频预测的质量。为了解决这些问题,我们引入了 GigaWorld-Policy,这是一种以动作为中心的 WAM,它可以学习 2D 像素动作动态,同时实现高效的动作解码,并具有可选的视频生成功能。具体来说,我们将策略训练制定为两个耦合的组件:模型根据当前观察预测未来的动作序列,并同时根据预测的动作和相同的观察生成未来的视频。该策略受到动作预测和视频生成的监督,提供更丰富的学习信号并通过视觉动态约束鼓励物理上合理的动作。通过防止未来视频 Token 影响动作 Token 的因果设计,在推理时可以选择显式的未来视频生成,从而在部署期间实现更快的动作预测。为了支持这种范例,我们策划了一个多样化的大规模机器人数据集来预训练以动作为中心的视频生成模型,然后将其用作机器人策略学习的骨干。现实世界机器人平台上的实验结果表明,GigaWorld-Policy 的运行速度比领先的 WAM 基线 Motus 快 9 倍,同时将任务成功率提高 7%。此外,与pi-0.5相比,GigaWorld-Policy在RoboTwin 2.0上的性能提高了95% ...
视觉模仿学习方法表现出强大的性能,但在面对视觉输入扰动(包括光照和纹理的变化)时缺乏泛化性,阻碍了其在现实世界中的应用。我们提出了 Stem-OB,它利用预训练的图像扩散模型来抑制低级视觉差异,同时保持高级场景结构。这种图像反转过程类似于将观察结果转换为共享表示,其他观察结果从中产生,并删除了无关的细节。 Stem-OB 与数据增强方法形成对比,因为它对各种未指定的外观变化具有鲁棒性,而不需要额外的训练。我们的方法是一种简单但高效的即插即用解决方案。实证结果证实了我们的方法在模拟任务中的有效性,并在实际应用中显示出异常显着的改进,与最佳基线相比,成功率平均提高了 22.2%。请参阅此 https URL 以获取更多信息 ...
视觉-语言-动作(VLA)模型受益于思想链(CoT)推理,但现有方法会产生高推理开销,并且依赖于与连续感知和控制不匹配的离散推理表示。我们提出了潜在推理 VLA (\textbf{LaRA-VLA}),这是一个统一的 VLA 框架,它将多模态 CoT 推理内化为具体动作的连续潜在表示。 LaRA-VLA 在潜在空间中执行统一的推理和预测,消除了推理时的显式 CoT 生成,并实现高效、面向行动的控制。为了实现潜在的体现推理,我们引入了一种基于课程的训练范式,逐步从明确的文本和视觉 CoT 监督过渡到潜在推理,并最终使潜在推理动态适应条件动作生成。我们构建了两个结构化 CoT 数据集,并在模拟基准和长期真实机器人操作任务上评估 LaRA-VLA。实验结果表明,与基于 CoT 的显式方法相比,LaRA-VLA 始终优于最先进的 VLA 方法,同时将推理延迟减少高达 90%,证明潜在推理是实时体现控制的有效且高效的范例。项目页面:\href{此 https URL}{LaRA-VLA 网站} ...
视觉-语言-动作(VLA)模型将视觉观察和语言指令直接映射到机器人动作。虽然标准 VLA 模型对简单任务有效,但通常难以处理需要逻辑规划的复杂、多步骤任务,以及需要细粒度空间感知的精确操作。最近的努力结合了思想链(CoT)推理,赋予 VLA 模型“先思考后行动”的能力。然而,当前基于 CoT 的 VLA 模型面临两个关键限制:1)由于依赖于孤立的单模态 CoT,无法同时捕获低级视觉细节和高级逻辑规划; 2) 推理延迟高,并伴有逐步自回归解码导致的复合错误。为了解决这些限制,我们提出了 DualCoT-VLA,这是一种具有并行推理机制的 VLA 模型的视觉语言 CoT 方法。为了实现全面的多模态推理,我们的方法集成了用于低级空间理解的视觉 CoT 和用于高级任务规划的语言 CoT。此外,为了克服延迟瓶颈,我们引入了并行 CoT 机制,该机制包含两组可学习的查询标记,将自回归推理转变为单步前向推理。大量实验表明,我们的 DualCoT-VLA 在 LIBERO 和 RoboCasa GR1 基准以及实际平台上实现了最先进的性能 ...
人们越来越期望自主代理能够在复杂、动态和不确定的环境中运行,执行操纵、导航和决策等任务。实现这些能力需要智能体了解世界的潜在机制和动态,超越纯粹的反应控制或观察状态的简单复制。这推动了世界模型的发展,作为编码环境状态、捕获动态并实现预测、规划和推理的内部表示。尽管人们的兴趣日益浓厚,但世界模型的定义、范围、架构和基本功能仍然模糊不清。在这项调查中,我们没有直接强加固定的定义并将我们的范围限制在明确标记为世界模型的方法上,而是通过审查机器人操纵方法来研究展示世界模型核心功能的方法。我们分析它们在感知、预测和控制方面的作用,确定关键挑战和解决方案,并提炼现实世界模型应具备的核心组件、能力和功能。在此分析的基础上,我们的目标是概述开发通用且实用的机器人世界模型的路线图 ...
视觉-语言-动作(VLA)模型的最新进展表明,视觉信号可以有效补充稀疏动作监督。然而,让 VLA 直接预测高维视觉状态会分散模型容量并产生高昂的训练成本,而将视觉状态压缩为更紧凑的监督信号不可避免地会产生信息瓶颈。此外,由于忽视语言监督,现有方法常常导致理解和推理能力较差。本文介绍了 Mantis,这是一种新颖的框架,具有解缠结的视觉远见 (DVF) 来解决这些问题。具体来说,Mantis 通过元查询和扩散 Transformer (DiT) 头的组合,将视觉前瞻预测与主干网络解耦。通过残差连接向 DiT 提供当前视觉状态,简单的下一状态预测目标使元查询能够自动捕获描绘视觉轨迹的潜在动作,从而促进显式动作的学习。这种解开减轻了 VLA 主干的负担,使其能够通过语言监督保持理解和推理能力。根据经验,在人类操作视频、机器人演示和图像文本对上进行预训练,经过微调,Mantis 在 LIBERO 基准上取得了 96.7% 的成功率,超越了强大的基线,同时表现出较高的收敛速度。现实世界的评估表明,Mantis 的性能优于领先的开源 VLA 模型 $\pi_{0.5}$,特别是在指令跟踪能力、对未见过的指令的泛化和推理能力方面。发布代码和权重以支持开源社区 ...
在不同的硬件上构建通用的实体代理仍然是机器人技术的一个核心挑战,通常被描述为“单脑、多种形式”的范例。碎片化的数据、不一致的表述和不一致的培训目标阻碍了进展。我们提出了 ABot-M0,这是一个构建系统数据管理管道的框架,同时联合优化模型架构和训练策略,实现异构原始数据端到端转换为统一、高效的表示。我们从六个公共数据集中清理、标准化和平衡样本,构建 UniACT 数据集,这是一个拥有超过 600 万条轨迹和 9,500 小时数据的大型数据集,涵盖了不同的机器人形态和任务场景。统一的预训练改善了跨平台和任务的知识转移和泛化,支持通用的体现智能。为了提高动作预测的效率和稳定性,我们提出了动作流形假设:有效的机器人动作并不位于完整的高维空间中,而是位于受物理定律和任务约束控制的低维、平滑流形上。基于此,我们引入了动作流形学习(AML),它使用 DiT 主干来直接预测干净、连续的动作序列。这将学习从去噪转变为投影到可行流形上,从而提高了解码速度和策略稳定性。 ABot-M0 通过双流机制支持模块化感知,该机制将 VLM 语义与几何先验以及来自即插即用 3D 模块(如 VGGT 和 Qwen-Image-Edit)的多视图输入集成在一起,从而在不修改主干的情况下增强空间理解,并减轻 3D 推理中标准 VLM 的限制。实验表明组件独立运行并具有附加优势。我们将发布所有代码和管道,以实现可重复性和未来的研究 ...
通用机器人的长期愿景取决于它们理解自然语言指令并采取行动的能力。视觉-语言-动作(VLA)模型在实现这一目标方面取得了显着进展,但它们生成的动作仍然可能与给定的指令不一致。在本文中,我们研究了测试时验证作为缩小“意图与行动差距”的一种手段。我们首先描述了具体指令遵循的测试时间缩放法则,并证明联合缩放改写指令和生成动作的数量大大增加了测试时间样本的多样性,通常比独立缩放每个维度更有效地恢复正确的动作。为了利用这些缩放法则,我们提出了 CoVer,一种用于视觉-语言-动作对齐的对比验证器,并表明我们的架构可以通过额外的计算资源和数据进行优雅的缩放。然后,我们介绍 CoVer-VLA,这是一种使用训练有素的验证器的分层测试时验证管道。在部署时,我们的框架从视觉语言模型(VLM)中预先计算一组不同的重新表述的指令,为每条指令重复生成候选动作,然后使用验证器选择最佳的高级提示和低级动作块。与在相同数据上扩展策略预训练相比,我们的验证方法在 SIMPLER 基准上产生了 22% 的分布内增益和 13% 的分布外增益,在实际实验中进一步提高了 45%。在 PolaRiS 基准上,CoVer-VLA 的任务进度提高了 14%,成功率提高了 9% ...
机器人技术的一个长期目标是一种通用策略,可以在新的机器人实施例上进行零射击部署,而无需针对每个实施例进行调整。尽管进行了大规模的多实施例预训练,现有的视觉-语言-动作模型(VLA)仍然与其训练实施例紧密耦合,并且通常需要昂贵的微调。我们引入了语言动作预训练(LAP),这是一种简单的方法,直接用自然语言表示低级机器人动作,使动作监督与预训练的视觉语言模型的输入输出分布保持一致。 LAP 不需要学习分词器,不需要昂贵的注释,也不需要特定于实施例的架构设计。基于 LAP,我们提出了 LAP-3B,据我们所知,它是第一个实现到以前未见过的机器人实施例的基本零样本转移的 VLA,而无需任何特定于实施例的微调。在多个新颖的机器人和操纵任务中,LAP-3B 获得了超过 50% 的平均零射击成功率,比之前最强的 VLA 大约提高了 2 倍。我们进一步表明,LAP 能够实现高效的适应和有利的扩展,同时以共享的语言-动作格式统一动作预测和 VQA,从而通过协同训练产生额外的收益 ...
尽管多模态基础模型取得了快速进展,但实体智能领域仍然缺乏一个统一的、以物理为基础的基础模型,将感知、推理和规划集成到现实世界的时空动态中。我们介绍 RynnBrain,一个用于体现智能的开源时空基础模型。 RynnBrain 在统一框架中强化了四大核心能力:全面的以自我为中心的理解、多样化的时空定位、物理基础推理和物理感知规划。 RynnBrain 系列包括三个基础模型规模(2B、8B 和 30B-A3B MoE)和四个针对下游具体任务(即 RynnBrain-Nav、RynnBrain-Plan 和 RynnBrain-VLA)或复杂空间推理任务(即 RynnBrain-CoP)定制的训练后变体。在对 20 个体现基准和 8 个通用视觉理解基准的广泛评估方面,我们的 RynnBrain 基础模型在很大程度上优于现有的体现基础模型。训练后模型套件进一步证实了 RynnBrain 基础模型的两个关键潜力:(i) 实现基于物理的推理和规划,(ii) 作为强大的预训练骨干,可以有效地适应不同的具体任务 ...