城市微移动应用(例如送货机器人)需要在大规模城市环境中进行可靠导航,同时遵循长视距路线指令。由于现实城市地区的动态和非结构化性质,这项任务特别具有挑战性,但大多数现有的导航方法仍然是针对小规模和可控场景的。有效的城市微交通需要两个互补级别的导航技能:低级能力(例如点目标到达和避障)和高级能力(例如路线视觉对齐)。为此,我们提出了 UrbanVLA,这是一个专为可扩展的城市导航而设计的路线条件视觉-语言-行动(VLA)框架。我们的方法在执行过程中明确地将噪声路径点与视觉观察对齐,然后规划驱动机器人的轨迹。为了使 UrbanVLA 能够掌握两个级别的导航,我们采用了两阶段训练流程。该过程首先使用模拟环境和从网络视频解析的轨迹进行监督微调 (SFT)。接下来是对模拟和现实世界数据的混合进行强化微调(RFT),这增强了模型在现实世界环境中的安全性和适应性。实验表明,UrbanVLA 在 MetaUrban 上的 SocialNav 任务中超出了强基线 55% 以上。此外,UrbanVLA 实现了可靠的现实世界导航,展示了大规模城市环境的可扩展性和针对现实世界不确定性的鲁棒性 ...
动态、以人为中心的环境中的机器人导航需要基于强大的场景理解的社会兼容决策。最近的视觉语言模型(VLM)展示了有前景的功能,例如目标识别、常识推理和上下文理解功能,这些功能符合社交机器人导航的细微差别要求。然而,目前尚不清楚 VLM 是否能够准确理解复杂的社交导航场景(例如,推断智能体之间的时空关系和人类意图),这对于安全且符合社交要求的机器人导航至关重要。虽然最近的一些工作探索了 VLM 在社交机器人导航中的使用,但现有的工作还没有系统地评估它们满足这些必要条件的能力。在本文中,我们介绍了社交导航场景理解基准 (SocialNav-SUB),这是一个视觉问答 (VQA) 数据集和基准,旨在评估 VLM 在现实社交机器人导航场景中的场景理解。 SocialNav-SUB 提供了一个统一的框架,用于在社交机器人导航中需要空间、时空和社交推理的 VQA 任务中根据人类和基于规则的基线评估 VLM。通过对最先进的 VLM 进行实验,我们发现,虽然性能最好的 VLM 达到了与人类答案一致的令人鼓舞的概率,但它仍然不如更简单的基于规则的方法和人类共识基线,这表明当前 VLM 在社交场景理解方面存在严重差距。我们的基准测试为进一步研究社交机器人导航基础模型奠定了基础,提供了一个框架来探索如何定制 VLM 以满足现实世界的社交机器人导航需求。本文的概述以及代码和数据可以在此 https URL 中找到 ...
遵守社会规范的具体导航仍然是一个开放的研究挑战。我们的 \textbf{SocialNav} 是具有分层“大脑行动”架构的社交意识导航的基础模型,能够理解高级社会规范并生成低级的、符合社会规范的轨迹。为了实现这种双重功能,我们构建了 SocNav 数据集,这是一个包含 700 万个样本的大规模集合,包括 (1) 认知激活数据集,提供社交推理信号,例如思想链解释和社交可遍历性预测,以及 (2) 专家轨迹金字塔,聚合来自互联网视频、模拟环境和现实世界机器人的各种导航演示。提出了一个多阶段训练管道来逐步注入和完善导航智能:我们首先通过模仿学习将一般导航技能和社会规范理解注入到模型中,然后通过精心设计的社交感知流探索GRPO(SAFE-GRPO)来完善这些技能,这是第一个基于流的实体导航强化学习框架,明确奖励符合社会规范的行为。与最先进的方法相比,SocialNav 实现了 +38% 的成功率和 +46% 的社会合规率,显示出导航性能和社会合规性方面的巨大进步。我们的项目页面:这个 https URL ...
对于机器人来说,在动态开放世界环境中学习导航是一项重要但具有挑战性的技能。以前的大多数方法都依赖于精确的定位和映射,或者从昂贵的现实世界演示中学习。在本文中,我们提出了导航扩散策略(NavDP),这是一种仅在模拟中训练的端到端框架,可以零样本转移到不同现实环境中的不同实施例。 NavDP 网络的关键要素是基于扩散的轨迹生成和轨迹选择的批评函数的组合,这些函数仅以从共享策略转换器编码的本地观察标记为条件。考虑到模拟中全球环境的特权信息,我们扩大了高质量的演示来训练扩散策略,并通过对比负样本制定批评价值函数目标。我们的演示生成方法每天可以实现约 2,500 个轨迹/GPU,比现实世界的数据收集效率高 20 倍\倍,并生成包含 1244 个场景、363.2 公里轨迹的大规模导航数据集。使用该模拟数据集进行训练后,NavDP 在不同的室内和室外环境中的四足、轮式和人形机器人上实现了最先进的性能和一贯出色的泛化能力。此外,我们还初步尝试使用高斯分布进行域内实数到模拟微调,以进一步缩小模拟到实际的差距。实验表明,添加这样的real-to-sim数据可以在不损害其泛化能力的情况下将成功率提高30% ...
通用 3D 基础模型已开始引领统一不同视觉任务的趋势,但大多数模型都假设仅 RGB 输入并忽略现成的几何线索(例如相机内在特征、姿势和深度图)。为了解决这个问题,我们引入了 OmniVGGT,这是一种新颖的框架,可以在训练和推理过程中有效地受益于任意数量的辅助几何模态。在我们的框架中,提出了一个 GeoAdapter 将深度和相机内在/外在编码到空间基础模型中。它采用零初始化卷积逐步注入几何信息,而不会破坏基础模型的表示空间。这种设计可确保稳定的优化,且开销可以忽略不计,即使在多个额外输入的情况下,也能保持与 VGGT 相当的推理速度。此外,还提出了一种随机多模态融合方案,该方案在训练期间对每个实例的模态子集进行随机采样。这使得在测试过程中能够实现任意数量的模态输入,并促进学习鲁棒的空间表示,而不是过度拟合辅助线索。单目/多视图深度估计、多视图立体和相机姿态估计的综合实验表明,OmniVGGT 的性能优于带有辅助输入的现有方法,即使仅使用 RGB 输入也能实现最先进的结果。为了进一步突出其实用性,我们将 OmniVGGT 集成到视觉-语言-动作 (VLA) 模型中。 OmniVGGT 的增强型 VLA 模型不仅在主流基准测试中优于基于点云的基线,而且还有效地利用可访问的辅助输入来实现机器人任务的一致增益 ...
通用 3D 基础模型已开始引领统一不同视觉任务的趋势,但大多数模型都假设仅 RGB 输入并忽略现成的几何线索(例如相机内在特征、姿势和深度图)。为了解决这个问题,我们引入了 OmniVGGT,这是一种新颖的框架,可以在训练和推理过程中有效地受益于任意数量的辅助几何模态。在我们的框架中,提出了一个 GeoAdapter 将深度和相机内在/外在编码到空间基础模型中。它采用零初始化卷积逐步注入几何信息,而不会破坏基础模型的表示空间。这种设计可确保稳定的优化,且开销可以忽略不计,即使在多个额外输入的情况下,也能保持与 VGGT 相当的推理速度。此外,还提出了一种随机多模态融合方案,该方案在训练期间对每个实例的模态子集进行随机采样。这使得在测试过程中能够实现任意数量的模态输入,并促进学习鲁棒的空间表示,而不是过度拟合辅助线索。单目/多视图深度估计、多视图立体和相机姿态估计的综合实验表明,OmniVGGT 的性能优于带有辅助输入的现有方法,即使仅使用 RGB 输入也能实现最先进的结果。为了进一步突出其实用性,我们将 OmniVGGT 集成到视觉-语言-动作 (VLA) 模型中。 OmniVGGT 的增强型 VLA 模型不仅在主流基准测试中优于基于点云的基线,而且还有效地利用可访问的辅助输入来实现机器人任务的一致增益 ...
视觉和语言导航(VLN)要求智能体在环境中遵循自然语言指令,记忆持久的变体需要通过积累的经验逐步改进。现有的记忆持久性 VLN 方法面临着严重的局限性:它们缺乏有效的内存访问机制,而是依赖于整个内存合并或固定范围查找,并且主要仅存储环境观察结果,而忽略了编码有价值的决策策略的导航行为模式。我们提出了回忆录,它采用想象力作为基于外显记忆的检索机制:世界模型将未来的导航状态想象为查询,以选择性地检索相关的环境观察和行为历史 ...
视觉语言导航(VLN)要求智能体通过长期连续的视觉观察来遵循自然语言指令。显式推理可以增强时间一致性和感知动作对齐,但固定步骤的推理通常会导致性能不佳和不必要的计算。为了解决这个问题,我们提出了 AdaNav,一种基于不确定性的 VLN 自适应推理框架 ...
视觉导航政策被广泛认为是一个有前途的方向,因为它通过使用以自我为中心的视觉观察来模仿人类进行导航。然而,视觉观测的光学信息很难像激光雷达点云或深度图那样明确建模,这随后需要智能模型和大规模数据。为此,我们建议利用视觉-语言-动作(VLA)模型的智能,以师生的方式从合成专家数据中学习各种导航功能 ...
实体导航对智能机器人提出了核心挑战,需要理解视觉环境、自然语言指令和自主探索。现有模型通常无法在不同的导航范例中提供统一的解决方案,从而导致成功率低且泛化能力有限。我们推出了 OmniNav,这是一个统一的框架,可在单一架构中解决指令目标、对象目标、点目标导航和基于前沿的探索 ...