视觉语言导航(VLN)是开发可以遵循自然语言指令进行自然语言指令以在复杂的现实世界环境中导航的重要任务。与传统方法相比,大型预审预周审经模型在VLN的最新进展已大大改善了概括和指导基础。然而,尽管经过思考链(COT)推理在视觉问题回答等静态任务中表现出了成功,但推理策略在导航中的作用却没有被驱散 ...
连续环境中的视觉和语言导航 (VLN-CE) 的最新进展利用多模态大语言模型 (MLLM) 来实现零样本导航。然而,现有方法通常依赖于全景观测和涉及航路点预测器的两级管道,这会引入显着的延迟并限制现实世界的适用性。在这项工作中,我们提出了 Fast-SmartWay,一种端到端零样本 VLN-CE 框架,消除了对全景视图和航点预测器的需求。我们的方法仅使用三个正面 RGB-D 图像与自然语言指令相结合,使 MLLM 能够直接预测动作。为了增强决策的鲁棒性,我们引入了一个不确定性感知推理模块,该模块集成了(i)用于避免局部最优的消歧模块,以及(ii)用于全局一致规划的未来-过去双向推理机制。在模拟和真实机器人环境中进行的实验表明,与全景视图基线相比,我们的方法显着减少了每步延迟,同时实现了有竞争力或卓越的性能。这些结果证明了 Fast-SmartWay 对于现实世界零样本体现导航的实用性和有效性 ...
视觉语言模型(VLM)已广泛应用于地面视觉语言导航(VLN)。然而,室外空中环境的巨大复杂性加剧了数据采集的挑战,并对无人机 (UAV) 提出了长视距轨迹规划要求,从而给空中 VLN 带来了新的复杂性。为了应对这些挑战,我们提出了一种数据高效的开放世界航空视觉语言导航(即OpenVLN)框架,该框架可以在有限的数据约束下执行语言引导飞行,并增强复杂航空环境中的长视距轨迹规划能力。具体来说,我们重新配置了一个强化学习框架来优化无人机导航任务的VLM,它可以在有限的训练数据下使用基于规则的策略来有效地微调VLM。同时,我们引入了用于轨迹合成的长视野规划器,该规划器通过基于价值的奖励动态生成精确的无人机动作。最后,我们在 TravelUAV 基准上进行了足够的导航实验,并在不同的奖励设置中扩展了数据集。与基线方法相比,我们的方法在成功率、Oracle 成功率和按路径长度加权的成功率方面表现出一致的性能提升高达 4.34%、6.19% 和 4.07%,验证了其在复杂空中环境中长视距无人机导航的部署功效 ...
随着具身智能成为人工智能研究的核心前沿,模拟平台必须超越低级物理交互,以捕捉复杂的、以人为中心的社会行为。我们介绍 FreeAskWorld,这是一个交互式模拟框架,它集成了大型语言模型 (LLM),用于高级行为规划和基于语义的交互,并以意图和社会认知理论为基础。我们的框架支持可扩展、真实的人类代理模拟,并包括为不同具体体现而定制的模块化数据生成管道,验证框架,我们将经典的视觉和语言导航(VLN)任务扩展为交互丰富的方向查询设置,其中代理可以主动寻找和解释导航指导。我们提出并公开发布 FreeAskWorld,这是一个大规模基准数据集,包含重建环境、六种不同的任务类型、16 个核心对象类别、63,429 个带注释的样本帧以及超过 17 小时的交互数据,以支持具体人工智能系统的训练和评估。我们在开环和闭环设置下对 VLN 模型和人类参与者进行基准测试。实验结果表明,在 FreeAskWorld 上微调的模型优于原始模型,从而增强了语义理解和交互能力。这些发现强调了基于社会的模拟框架在推动具体人工智能系统走向复杂的高层规划和更自然的人机交互方面的有效性。重要的是,我们的工作强调交互本身可以作为一种附加的信息方式 ...
视觉和语言导航(VLN)要求智能体通过视觉图像和自然语言指令自主导航复杂的环境——仍然具有很高的挑战性。最近关于使用预训练的大语言模型(LLM)增强语言引导导航推理的研究显示出了广阔的前景。但此类方法的推理仅限于语言模态,缺乏视觉推理能力。此外,现有推理模块与导航策略分开优化,导致优化目标不兼容和潜在冲突。为了应对这些挑战,我们引入了 UNeMo,这是一种专为视觉状态推理和导航决策的协作优化而设计的新颖框架。它引入了多模态世界模型(MWM),该模型将视觉特征、语言指令和导航动作作为输入来共同预测后续视觉状态,从而实现跨模态推理。通过分层预测反馈(HPN)机制,MWM 与导航策略协作:第一层使用当前视觉和语言特征生成动作;然后,MWM 推断动作后的视觉状态,以指导第二层的细粒度决策。这就形成了一种动态的双向促进机制,MWM推理优化导航策略,同时策略决策反馈提高MWM的推理准确性。在 R2R 和 REVERIE 数据集上的实验表明,UNeMo 在未见过场景的导航精度方面分别比最先进的方法高出 2.1% 和 0.7%,验证了其有效性 ...
视觉和语言导航(VLN)要求智能体在连续的现实空间中行动时遵循语言指令。先前基于图像想象的 VLN 工作显示了离散全景的好处,但缺乏在线、动作条件预测,并且不产生明确的规划值;此外,许多方法用脆弱且缓慢的长期目标取代了规划者。为了弥补这一差距,我们提出了 VISTAv2,这是一种生成世界模型,它根据过去的观察、候选行动序列和指令推出以自我为中心的未来观点,并将它们投影到在线价值地图中以进行规划。与之前的方法不同,VISTAv2 不会取代规划器。在线价值地图在分数级别与基本目标融合,提供可达性和风险意识指导。具体来说,我们采用动作感知条件扩散 Transformer 视频预测器来合成短期未来,通过视觉语言评分器将它们与自然语言指令对齐,并在可微的想象到价值头部中融合多个推出,以输出想象的以自我为中心的价值图。为了提高效率,在带有蒸馏采样器和稀疏解码的 VAE 潜在空间中进行部署,从而能够在单个消费者 GPU 上进行推理。在 MP3D 和 RoboTHOR 上进行评估,VISTAv2 在强基线上有所改进,消融表明动作条件想象、指令引导的价值融合和在线价值地图规划器都很重要,这表明 VISTAv2 为稳健的 VLN 提供了一条实用且可解释的途径 ...
现有的基于大型视觉语言模型(LVLM)的视觉语言导航(VLN)代理经常遭受感知错误、推理错误和规划错误,这严重影响了它们的导航性能。为了解决这些限制,本文提出了一种新颖的 VLN 代理框架,名为 SeeNav-Agent。首先,为了减少VLN智能体视觉模块的感知幻觉,在输入空间中引入了双视图视觉提示(VP)技术,这也可以提高智能体对当前空间状态的理解。随后,设计了一种新颖的步进级强化微调(RFT)方法,即步进奖励组策略优化(SRGPO),用于 VLN 代理的后期训练。在SRGPO中,我们首先为导航任务定义可验证的过程奖励,然后通过随机分组不同的导航步骤来执行有效的步骤级优势估计。 SRGPO为VLN代理的强化学习过程提供密集的奖励信号,并增强其规划能力。 EmbodiedBench Navigation 基准测试的实验结果表明,通过引入零样本 VP 模块,GPT-4.1 实现了 86.7% 的导航成功率,超过了当前最好的 LVLM 约 20 个百分点 (pp)。通过基于SRGPO的后训练,Qwen2.5-VL-3B模型的导航成功率达到72.3%,比现有最好的LVLM模型高出5.6个百分点。此外,与GRPO和GiGPO等RFT算法相比,所提出的SRGPO在训练稳定性、收敛效率和泛化能力方面都有显着提高 ...
虽然最近的大型视觉语言模型(VLM)提高了视觉语言导航(VLN)的泛化能力,但现有方法通常依赖于将视觉语言输入直接映射到短视野离散动作的端到端管道。此类设计通常会产生碎片化的运动,导致高延迟,并难以应对动态避障等现实世界的挑战。我们提出了 DualVLN,这是第一个双系统 VLN 基础模型,它将高级推理与低级动作执行协同集成。 System 2 是一个基于 VLM 的全局规划器,通过基于图像的推理来预测中期航路点目标,从而“缓慢地落地”。系统 1 是一种轻量级、多模态调节扩散 Transformer 策略,通过利用系统 2 的显式像素目标和潜在特征来“快速移动”,以生成平滑且准确的轨迹。双系统设计可在复杂、动态的环境中实现强大的实时控制和自适应本地决策。通过解耦训练,VLM 保留了其泛化性,而系统 1 实现了可解释且有效的本地导航。 DualVLN 在所有 VLN 基准测试中均优于现有方法,并且实际实验证明了动态环境中强大的长期规划和实时适应性 ...
空中视觉和语言导航(VLN)旨在使无人机(UAV)能够解释自然语言指令并利用机载视觉观察在复杂的城市环境中导航。这项任务有望应用于低空检查、搜索救援和自主空中交付等实际应用。现有方法通常依赖全景图像、深度输入或里程计来支持空间推理和行动规划。这些要求增加了系统成本和集成复杂性,从而阻碍了轻型无人机的实际部署。我们提出了一个统一的航空 VLN 框架,该框架仅基于以自我为中心的单目 RGB 观察和自然语言指令运行。该模型将导航表述为下一个 Token 预测问题,通过提示引导的多任务学习联合优化空间感知、轨迹推理和动作预测。此外,我们提出了一种关键帧选择策略,通过保留语义信息帧来减少视觉冗余,以及一种动作合并和标签重新加权机制,以减轻长尾监督不平衡并促进稳定的多任务协同训练。对 Aerial VLN 基准的大量实验验证了我们方法的有效性。在具有挑战性的单眼 RGB 设置下,我们的模型在可见和不可见的环境中都取得了出色的结果。它的性能显着优于现有的纯 RGB 基准,并缩小了与最先进的全景 RGB-D 同类产品的性能差距。全面的消融研究进一步证明了我们的任务设计和架构选择的贡献 ...
人口稠密的动态环境中的社交导航对自主移动机器人提出了重大挑战,需要先进的安全交互策略。现有的基于强化学习 (RL) 的方法需要超过 2000 多个小时的大量训练,并且通常很难在不进行额外微调的情况下推广到不熟悉的环境,从而限制了它们在现实场景中的实际应用。为了解决这些限制,我们提出了 SocialNav-Map,这是一种新颖的零镜头社交导航框架,它将动态人类轨迹预测与占用映射相结合,无需针对特定环境的训练即可实现安全高效的导航。具体来说,SocialNav-Map首先将任务目标位置转换到构建的地图坐标系中。随后,它创建了一个动态占用地图,其中将预测的人类运动作为动态障碍物纳入其中。该框架采用两种互补的方法进行人体轨迹预测:历史预测和方向预测。通过将这些预测轨迹集成到占用地图中,机器人可以主动避免与人类潜在的碰撞,同时有效地导航到目的地。对 Social-HM3D 和 Social-MP3D 数据集进行的大量实验表明,SocialNav-Map 的性能显着优于基于 RL 的最先进 (SOTA) 方法,后者需要 2,396 GPU 小时的训练。值得注意的是,它可以将人类碰撞率降低 10% 以上,而无需在新环境中进行任何训练。通过消除针对特定环境的训练的需要,SocialNav-Map 实现了卓越的导航性能,为在以不同人类行为为特征的现实环境中部署社交导航系统铺平了道路。该代码位于:此 https URL ...