操纵动态对象仍然是视觉-语言-动作(VLA)模型的一个开放挑战,尽管静态操纵具有很强的泛化性,但在需要快速感知、时间预测和连续控制的动态场景中却表现不佳。我们提出了 DynamicVLA,一个动态对象操作框架,通过三个关键设计集成了时间推理和闭环自适应:1)紧凑的 0.4B VLA,使用卷积视觉编码器进行空间高效、结构忠实的编码,从而实现快速多模态推理; 2) 连续推理,实现重叠推理和执行,以降低延迟并及时适应对象运动; 3)潜在感知动作流,通过强制时间对齐的动作执行来弥合感知与执行之间的差距。为了填补动态操作数据的缺失基础,我们引入了动态对象操作 (DOM) 基准,该基准从头开始构建,具有自动数据收集管道,可有效收集 2.8K 场景和 206 个对象的 200K 合成片段,并无需远程操作即可快速收集 2K 真实世界片段。广泛的评估证明了响应速度、感知和泛化方面的显着改进,将 DynamicVLA 定位为跨实施例的通用动态对象操作的统一框架 ...
缩放推动了视觉基础模型的最新进展,但由于异构传感器噪声、相机相关偏差以及嘈杂的跨源 3D 数据中的度量模糊性,将这种范式扩展到度量深度估计仍然具有挑战性。我们推出了 Metric Anything,这是一个简单且可扩展的预训练框架,可以从嘈杂、多样化的 3D 源中学习度量深度,而无需手动设计提示、特定于相机的建模或特定于任务的架构。我们方法的核心是稀疏度量提示,它是通过随机屏蔽深度图创建的,它作为一个通用接口,将空间推理与传感器和相机偏差分离。使用跨越 10000 个相机模型重建、捕获和渲染 3D 数据的约 2000 万个图像深度对,我们首次展示了公制深度轨道中清晰的缩放趋势。预训练模型擅长提示驱动任务,例如深度完成、超分辨率和雷达相机融合,而其精炼的无提示学生在单目深度估计、相机内在恢复、单/多视图度量 3D 重建和 VLA 规划方面取得了最先进的结果。我们还表明,使用 Metric Anything 的预训练 ViT 作为视觉编码器可以显着增强空间智能中的多模态大语言模型能力。这些结果表明,度量深度估计可以受益于驱动现代基础模型的相同缩放法则,从而建立一条通向可扩展且高效的现实世界度量感知的新路径。我们在此 http URL 开源 MetricAnything 以支持社区研究 ...
视觉-语言-动作 (VLA) 模型在机器人操作方面实现了很强的泛化,但在很大程度上仍然是反应性的和以 2D 为中心的,这使得它们在需要精确 3D 推理的任务中不可靠。我们提出了 GeoPredict,这是一个几何感知的 VLA 框架,它通过预测运动学和几何先验增强了连续动作策略。 GeoPredict 引入了一个轨迹级模块,用于对运动历史进行编码并预测机器人手臂的多步 3D 关键点轨迹,以及一个预测性 3D 高斯几何模块,用于通过沿着未来关键点轨迹的轨迹引导细化来预测工作空间几何形状。这些预测模块专门通过基于深度的渲染充当训练时监督,而推理仅需要轻量级的附加查询标记,而无需调用任何 3D 解码。 RoboCasa Human-50、LIBERO 和现实世界操作任务的实验表明,GeoPredict 始终优于强大的 VLA 基线,特别是在几何密集型和空间要求较高的场景中 ...
以前馈方式从未设置的稀疏视图中重建和理解 3D 场景仍然是 3D 计算机视觉中的一项具有挑战性的任务。最近的方法使用每像素 3D 高斯分布进行重建,然后使用 2D 到 3D 特征提升阶段进行场景理解。然而,它们生成过多的冗余高斯,导致高内存开销和次优的多视图特征聚合,导致新视图合成和场景理解性能下降。我们提出了 C3G,一种新颖的前馈框架,仅在必要的空间位置估计紧凑的 3D 高斯,最大限度地减少冗余,同时实现有效的特征提升。我们引入了可学习的标记,通过自注意力聚合多视图特征来指导高斯生成,确保每个高斯集成跨视图的相关视觉特征。然后,我们利用学习到的注意力模式进行高斯解码,以有效提升特征。关于无姿势新颖视图合成、3D 开放词汇分割和视图不变特征聚合的大量实验证明了我们方法的有效性。结果表明,紧凑但具有几何意义的表示足以进行高质量的场景重建和理解,与现有方法相比,实现卓越的内存效率和特征保真度 ...
虽然专家混合 (MoE) 通过条件计算扩展容量,但 Transformer 缺乏用于知识查找的本机原语,迫使它们通过计算低效地模拟检索。为了解决这个问题,我们引入条件记忆作为补充稀疏轴,通过 Engram 实例化,Engram 是一个现代化用于 O(1) 查找的经典 $N$-gram 嵌入的模块。通过制定稀疏分配问题,我们发现了一个 U 形缩放定律,该定律优化了神经计算 (MoE) 和静态内存 (Engram) 之间的权衡。在这一定律的指导下,我们将 Engram 扩展到 27B 参数,在严格的 iso 参数和 iso-FLOPs MoE 基线上实现了卓越的性能。最值得注意的是,虽然内存模块预计有助于知识检索(例如,MMLU +3.4;CMMLU +4.0),但我们观察到在一般推理(例如,BBH +5.0;ARC-Challenge +3.7)和代码/数学领域〜(HumanEval +3.0;MATH +2.4)方面取得了更大的进步。机制分析表明,Engram 使骨干网的早期层免于静态重建,有效加深了网络的复杂推理能力。此外,通过将本地依赖项委托给查找,它可以释放全局上下文的注意力能力,从而大大提高长上下文检索(例如,多查询 NIAH:84.2 到 97.0)。最后,Engram 建立了基础设施感知效率:其确定性寻址支持运行时从主机内存预取,产生的开销可以忽略不计。我们将条件记忆视为下一代稀疏模型不可或缺的建模原语 ...
多模态大语言模型(MLLM)在视觉语言导航(VLN)中显示出巨大的潜力。然而,大量的培训费用严重阻碍了它们的实际发展。我们认识到导致开销的两个关键问题:(1)将长期历史观察结果处理为大量标记序列所带来的二次计算负担,以及(2)DAgger 中的探索效率权衡,即收集代理探索轨迹的数据聚合过程。虽然更多的探索可以产生有效的错误恢复轨迹来处理测试时间分布变化,但它是以训练和推理的轨迹长度更长为代价的。为了应对这些挑战,我们提出了 Efficient-VLN,一种训练高效的 VLN 模型。具体来说,为了减轻 Token 处理负担,我们设计了两种有效的内存机制:渐进式内存,为最近的观察动态分配更多 Token ,以及可学习递归内存,利用可学习 Token 的键值缓存作为内存状态。此外,我们引入了动态混合政策来平衡勘探效率的权衡。大量实验表明,Efficient-VLN 在 R2R-CE (64.2% SR) 和 RxR-CE (67.0% SR) 上实现了最先进的性能。至关重要的是,我们的模型仅消耗 282 H800 GPU 小时,这表明与最先进的方法相比,训练开销显着减少 ...
人类通过目光和身体的预期动作来预测 3D 世界将如何响应,这种能力对于机器人操作同样重要。我们引入了 PointWorld,一种大型预训练 3D 世界模型,它将共享 3D 空间中的状态和动作统一为 3D 点流:给定一个或几个 RGB-D 图像和一系列低级机器人动作命令,PointWorld 预测 3D 中响应给定动作的每像素位移。通过将动作表示为 3D 点流而不是具体实施例的动作空间(例如关节位置),该公式直接以机器人的物理几何形状为条件,同时无缝集成跨实施例的学习。为了训练我们的 3D 世界模型,我们在 3D 视觉和模拟环境的最新进展的支持下,在开放世界环境中构建了一个涵盖真实和模拟机器人操作的大型数据集,单臂 Franka 和双手类人机器人总计约 200 万条轨迹和 500 小时。通过对主干、动作表示、学习目标、部分可观察性、数据混合、域传输和缩放进行严格的大规模实证研究,我们提炼出大规模 3D 世界建模的设计原则。凭借实时(0.1秒)的推理速度,PointWorld可以有效地集成到模型预测控制(MPC)框架中进行操作。我们证明,单个预训练检查点使现实世界的 Franka 机器人能够执行刚体推动、可变形和铰接物体操作以及工具使用,无需任何演示或后期训练,所有这些都来自在野外捕获的单个图像。项目网站位于此 https URL ...
通过模仿学习训练的端到端架构通过扩展模型大小和数据来实现先进的自动驾驶,但在监督稀疏且因果理解有限的安全关键长尾场景中,性能仍然很脆弱。为了解决这个问题,我们引入了 Alpamayo-R1 (AR1),这是一种视觉-语言-动作模型 (VLA),它将因果链推理与轨迹规划相结合,以增强复杂驾驶场景中的决策。我们的方法具有三个关键创新:(1)因果链(CoC)数据集,通过混合自动标记和人机循环管道构建,产生与驾驶行为一致的基于决策、因果关联的推理轨迹; (2) 模块化 VLA 架构,结合了 Cosmos-Reason(一种针对物理 AI 应用预先训练的视觉语言模型)和基于扩散的轨迹解码器,可实时生成动态可行的计划; (3)多阶段训练策略,使用监督微调来引发推理和强化学习(RL),通过大型推理模型反馈来优化推理质量并强制推理-动作一致性。评估显示,与仅使用轨迹的基线相比,AR1 在挑战性情况下的规划精度提高了 12%,在闭环模拟中越野率降低了 35%,近距离遭遇率降低了 25%。根据大型推理模型批评家的测量,强化学习后训练将推理质量提高了 45%,推理-动作一致性提高了 37%。模型从 0.5B 参数缩放到 7B 参数显示出一致的改进。车载道路测试证实了实时性能(99 毫秒延迟)和成功的城市部署。通过将可解释推理与精确控制结合起来,AR1 展示了通往 4 级自动驾驶的实用路径。我们计划在未来的更新中发布 AR1 模型和 CoC 的子集 ...
自动驾驶长期以来一直依赖于模块化的“感知-决策-行动”管道,其中手工制作的界面和基于规则的组件经常在复杂或长尾场景中崩溃。它们的级联设计进一步传播感知错误,降低下游规划和控制能力。视觉-动作(VA)模型通过学习从视觉输入到动作的直接映射来解决一些局限性,但它们仍然不透明,对分布变化敏感,并且缺乏结构化推理或指令跟踪能力。大语言模型(LLM)和多模态学习的最新进展推动了视觉-语言-行动(VLA)框架的出现,该框架将感知与基于语言的决策相结合。通过统一视觉理解、语言推理和可操作的输出,VLA 提供了一条通向更可解释、更通用和更人性化的驾驶政策的途径。这项工作提供了自动驾驶新兴 VLA 景观的结构化特征。我们追溯了从早期 VA 方法到现代 VLA 框架的演变,并将现有方法组织成两个主要范式:端到端 VLA(将感知、推理和规划集成在单个模型中)和双系统 VLA(将缓慢的审议(通过 VLM)与快速、安全关键的执行(通过规划器)分开。在这些范式中,我们进一步区分了子类,例如文本与数字动作生成器以及显式与隐式指导机制。我们还总结了用于评估基于 VLA 的驾驶系统的代表性数据集和基准,并强调了关键挑战和开放方向,包括鲁棒性、可解释性和指令保真度。总体而言,这项工作旨在为推进与人类兼容的自动驾驶系统奠定坚实的基础 ...
视觉-语言-动作 (VLA) 模型正在推动机器人技术的一场革命,使机器能够理解指令并与物理世界交互。这个领域正在爆炸性地出现新的模型和数据集,使得跟上步伐既令人兴奋又充满挑战。这项调查为 VLA 景观提供了清晰、结构化的指南。我们将其设计为遵循研究人员的自然学习路径:我们从任何 VLA 模型的基本模块开始,通过关键里程碑追溯历史,然后深入研究定义近期研究前沿的核心挑战。我们的主要贡献是对五个最大挑战的详细分析:(1) 表示、(2) 执行、(3) 泛化、(4) 安全性和 (5) 数据集和评估。这种结构反映了多面手代理的发展路线图:建立基本的感知-行动循环,跨不同实施例和环境扩展能力,并最终确保值得信赖的部署——所有这些都由基本数据基础设施支持。对于每一个,我们都会回顾现有的方法并强调未来的机会。我们将本文定位为新手的基础指南和经验丰富的研究人员的战略路线图,其双重目标是加速学习和激发具身智能的新想法。我们的 \href{此 https URL}{项目页面} 上维护着该调查的实时版本,并不断更新 ...