通用 3D 基础模型已开始引领统一不同视觉任务的趋势,但大多数模型都假设仅 RGB 输入并忽略现成的几何线索(例如相机内在特征、姿势和深度图)。为了解决这个问题,我们引入了 OmniVGGT,这是一种新颖的框架,可以在训练和推理过程中有效地受益于任意数量的辅助几何模态。在我们的框架中,提出了一个 GeoAdapter 将深度和相机内在/外在编码到空间基础模型中。它采用零初始化卷积逐步注入几何信息,而不会破坏基础模型的表示空间。这种设计可确保稳定的优化,且开销可以忽略不计,即使在多个额外输入的情况下,也能保持与 VGGT 相当的推理速度。此外,还提出了一种随机多模态融合方案,该方案在训练期间对每个实例的模态子集进行随机采样。这使得在测试过程中能够实现任意数量的模态输入,并促进学习鲁棒的空间表示,而不是过度拟合辅助线索。单目/多视图深度估计、多视图立体和相机姿态估计的综合实验表明,OmniVGGT 的性能优于带有辅助输入的现有方法,即使仅使用 RGB 输入也能实现最先进的结果。为了进一步突出其实用性,我们将 OmniVGGT 集成到视觉-语言-动作 (VLA) 模型中。 OmniVGGT 的增强型 VLA 模型不仅在主流基准测试中优于基于点云的基线,而且还有效地利用可访问的辅助输入来实现机器人任务的一致增益 ...
通用 3D 基础模型已开始引领统一不同视觉任务的趋势,但大多数模型都假设仅 RGB 输入并忽略现成的几何线索(例如相机内在特征、姿势和深度图)。为了解决这个问题,我们引入了 OmniVGGT,这是一种新颖的框架,可以在训练和推理过程中有效地受益于任意数量的辅助几何模态。在我们的框架中,提出了一个 GeoAdapter 将深度和相机内在/外在编码到空间基础模型中。它采用零初始化卷积逐步注入几何信息,而不会破坏基础模型的表示空间。这种设计可确保稳定的优化,且开销可以忽略不计,即使在多个额外输入的情况下,也能保持与 VGGT 相当的推理速度。此外,还提出了一种随机多模态融合方案,该方案在训练期间对每个实例的模态子集进行随机采样。这使得在测试过程中能够实现任意数量的模态输入,并促进学习鲁棒的空间表示,而不是过度拟合辅助线索。单目/多视图深度估计、多视图立体和相机姿态估计的综合实验表明,OmniVGGT 的性能优于带有辅助输入的现有方法,即使仅使用 RGB 输入也能实现最先进的结果。为了进一步突出其实用性,我们将 OmniVGGT 集成到视觉-语言-动作 (VLA) 模型中。 OmniVGGT 的增强型 VLA 模型不仅在主流基准测试中优于基于点云的基线,而且还有效地利用可访问的辅助输入来实现机器人任务的一致增益 ...
视觉和语言导航(VLN)要求智能体在环境中遵循自然语言指令,记忆持久的变体需要通过积累的经验逐步改进。现有的记忆持久性 VLN 方法面临着严重的局限性:它们缺乏有效的内存访问机制,而是依赖于整个内存合并或固定范围查找,并且主要仅存储环境观察结果,而忽略了编码有价值的决策策略的导航行为模式。我们提出了回忆录,它采用想象力作为基于外显记忆的检索机制:世界模型将未来的导航状态想象为查询,以选择性地检索相关的环境观察和行为历史 ...
视觉语言导航(VLN)要求智能体通过长期连续的视觉观察来遵循自然语言指令。显式推理可以增强时间一致性和感知动作对齐,但固定步骤的推理通常会导致性能不佳和不必要的计算。为了解决这个问题,我们提出了 AdaNav,一种基于不确定性的 VLN 自适应推理框架 ...
视觉导航政策被广泛认为是一个有前途的方向,因为它通过使用以自我为中心的视觉观察来模仿人类进行导航。然而,视觉观测的光学信息很难像激光雷达点云或深度图那样明确建模,这随后需要智能模型和大规模数据。为此,我们建议利用视觉-语言-动作(VLA)模型的智能,以师生的方式从合成专家数据中学习各种导航功能 ...
实体导航对智能机器人提出了核心挑战,需要理解视觉环境、自然语言指令和自主探索。现有模型通常无法在不同的导航范例中提供统一的解决方案,从而导致成功率低且泛化能力有限。我们推出了 OmniNav,这是一个统一的框架,可在单一架构中解决指令目标、对象目标、点目标导航和基于前沿的探索 ...
我们介绍了Mujoco Playground,这是一个完整的开放源代码框架,用于使用MJX构建的机器人学习,其明确的目标是将模拟,训练和模拟传输转移到机器人中。借助简单的“ PIP安装游乐场”,研究人员可以在单个GPU上几分钟内训练政策。游乐场支持各种机器人平台,包括四足动物,类人动物,灵巧的手和机器人手臂,从而从状态和像素输入中启用了零射击的SIM转移 ...
Vision语言导航(VLN)是体现AI的核心挑战,要求代理使用自然语言指令导航现实世界环境。当前基于语言模型的导航系统在离散拓扑图上运行,将路径计划限制为预定义的节点连接。我们提出了VLN-R1,这是一个端到端的框架,利用大型视觉模型(LVLM)将以自我为中心的视频流直接转化为连续导航动作,采用基于GRPO的培训,灵感来自DeepSeek-R1 ...
多任务学习(MTL)因其同时学习多个任务的能力而被广泛采用。尽管现有的梯度操纵方法通常比基于简单标量的方法产生更平衡的解决方案,但它们通常会在时间和内存中产生$ \ Mathcal {O}(k)$的重要计算开销,其中$ k $是任务的数量。在本文中,我们提出了LDC-MTL,这是MTL的简单且可扩展的损失差异控制方法,它是从双重优化的角度提出的 ...
自动驾驶汽车路径规划已达到安全性和法规合规性至关重要的阶段。本文提出了一种将运动计划者与深厚的增强学习模型相结合的方法,以预测潜在的交通规则。我们的主要创新是用运动计划模块以Actor-Critic方法替换标准演员网络,以确保稳定和可解释的轨迹产生 ...