视觉和语言导航(VLN)要求智能体通过视觉图像和自然语言指令自主导航复杂的环境——仍然具有很高的挑战性。最近关于使用预训练的大语言模型(LLM)增强语言引导导航推理的研究显示出了广阔的前景。但此类方法的推理仅限于语言模态,缺乏视觉推理能力。此外,现有推理模块与导航策略分开优化,导致优化目标不兼容和潜在冲突。为了应对这些挑战,我们引入了 UNeMo,这是一种专为视觉状态推理和导航决策的协作优化而设计的新颖框架。它引入了多模态世界模型(MWM),该模型将视觉特征、语言指令和导航动作作为输入来共同预测后续视觉状态,从而实现跨模态推理。通过分层预测反馈(HPN)机制,MWM 与导航策略协作:第一层使用当前视觉和语言特征生成动作;然后,MWM 推断动作后的视觉状态,以指导第二层的细粒度决策。这就形成了一种动态的双向促进机制,MWM推理优化导航策略,同时策略决策反馈提高MWM的推理准确性。在 R2R 和 REVERIE 数据集上的实验表明,UNeMo 在未见过场景的导航精度方面分别比最先进的方法高出 2.1% 和 0.7%,验证了其有效性 ...
视觉和语言导航(VLN)要求智能体在连续的现实空间中行动时遵循语言指令。先前基于图像想象的 VLN 工作显示了离散全景的好处,但缺乏在线、动作条件预测,并且不产生明确的规划值;此外,许多方法用脆弱且缓慢的长期目标取代了规划者。为了弥补这一差距,我们提出了 VISTAv2,这是一种生成世界模型,它根据过去的观察、候选行动序列和指令推出以自我为中心的未来观点,并将它们投影到在线价值地图中以进行规划。与之前的方法不同,VISTAv2 不会取代规划器。在线价值地图在分数级别与基本目标融合,提供可达性和风险意识指导。具体来说,我们采用动作感知条件扩散 Transformer 视频预测器来合成短期未来,通过视觉语言评分器将它们与自然语言指令对齐,并在可微的想象到价值头部中融合多个推出,以输出想象的以自我为中心的价值图。为了提高效率,在带有蒸馏采样器和稀疏解码的 VAE 潜在空间中进行部署,从而能够在单个消费者 GPU 上进行推理。在 MP3D 和 RoboTHOR 上进行评估,VISTAv2 在强基线上有所改进,消融表明动作条件想象、指令引导的价值融合和在线价值地图规划器都很重要,这表明 VISTAv2 为稳健的 VLN 提供了一条实用且可解释的途径 ...
现有的基于大型视觉语言模型(LVLM)的视觉语言导航(VLN)代理经常遭受感知错误、推理错误和规划错误,这严重影响了它们的导航性能。为了解决这些限制,本文提出了一种新颖的 VLN 代理框架,名为 SeeNav-Agent。首先,为了减少VLN智能体视觉模块的感知幻觉,在输入空间中引入了双视图视觉提示(VP)技术,这也可以提高智能体对当前空间状态的理解。随后,设计了一种新颖的步进级强化微调(RFT)方法,即步进奖励组策略优化(SRGPO),用于 VLN 代理的后期训练。在SRGPO中,我们首先为导航任务定义可验证的过程奖励,然后通过随机分组不同的导航步骤来执行有效的步骤级优势估计。 SRGPO为VLN代理的强化学习过程提供密集的奖励信号,并增强其规划能力。 EmbodiedBench Navigation 基准测试的实验结果表明,通过引入零样本 VP 模块,GPT-4.1 实现了 86.7% 的导航成功率,超过了当前最好的 LVLM 约 20 个百分点 (pp)。通过基于SRGPO的后训练,Qwen2.5-VL-3B模型的导航成功率达到72.3%,比现有最好的LVLM模型高出5.6个百分点。此外,与GRPO和GiGPO等RFT算法相比,所提出的SRGPO在训练稳定性、收敛效率和泛化能力方面都有显着提高 ...
虽然最近的大型视觉语言模型(VLM)提高了视觉语言导航(VLN)的泛化能力,但现有方法通常依赖于将视觉语言输入直接映射到短视野离散动作的端到端管道。此类设计通常会产生碎片化的运动,导致高延迟,并难以应对动态避障等现实世界的挑战。我们提出了 DualVLN,这是第一个双系统 VLN 基础模型,它将高级推理与低级动作执行协同集成。 System 2 是一个基于 VLM 的全局规划器,通过基于图像的推理来预测中期航路点目标,从而“缓慢地落地”。系统 1 是一种轻量级、多模态调节扩散 Transformer 策略,通过利用系统 2 的显式像素目标和潜在特征来“快速移动”,以生成平滑且准确的轨迹。双系统设计可在复杂、动态的环境中实现强大的实时控制和自适应本地决策。通过解耦训练,VLM 保留了其泛化性,而系统 1 实现了可解释且有效的本地导航。 DualVLN 在所有 VLN 基准测试中均优于现有方法,并且实际实验证明了动态环境中强大的长期规划和实时适应性 ...
空中视觉和语言导航(VLN)旨在使无人机(UAV)能够解释自然语言指令并利用机载视觉观察在复杂的城市环境中导航。这项任务有望应用于低空检查、搜索救援和自主空中交付等实际应用。现有方法通常依赖全景图像、深度输入或里程计来支持空间推理和行动规划。这些要求增加了系统成本和集成复杂性,从而阻碍了轻型无人机的实际部署。我们提出了一个统一的航空 VLN 框架,该框架仅基于以自我为中心的单目 RGB 观察和自然语言指令运行。该模型将导航表述为下一个 Token 预测问题,通过提示引导的多任务学习联合优化空间感知、轨迹推理和动作预测。此外,我们提出了一种关键帧选择策略,通过保留语义信息帧来减少视觉冗余,以及一种动作合并和标签重新加权机制,以减轻长尾监督不平衡并促进稳定的多任务协同训练。对 Aerial VLN 基准的大量实验验证了我们方法的有效性。在具有挑战性的单眼 RGB 设置下,我们的模型在可见和不可见的环境中都取得了出色的结果。它的性能显着优于现有的纯 RGB 基准,并缩小了与最先进的全景 RGB-D 同类产品的性能差距。全面的消融研究进一步证明了我们的任务设计和架构选择的贡献 ...
人口稠密的动态环境中的社交导航对自主移动机器人提出了重大挑战,需要先进的安全交互策略。现有的基于强化学习 (RL) 的方法需要超过 2000 多个小时的大量训练,并且通常很难在不进行额外微调的情况下推广到不熟悉的环境,从而限制了它们在现实场景中的实际应用。为了解决这些限制,我们提出了 SocialNav-Map,这是一种新颖的零镜头社交导航框架,它将动态人类轨迹预测与占用映射相结合,无需针对特定环境的训练即可实现安全高效的导航。具体来说,SocialNav-Map首先将任务目标位置转换到构建的地图坐标系中。随后,它创建了一个动态占用地图,其中将预测的人类运动作为动态障碍物纳入其中。该框架采用两种互补的方法进行人体轨迹预测:历史预测和方向预测。通过将这些预测轨迹集成到占用地图中,机器人可以主动避免与人类潜在的碰撞,同时有效地导航到目的地。对 Social-HM3D 和 Social-MP3D 数据集进行的大量实验表明,SocialNav-Map 的性能显着优于基于 RL 的最先进 (SOTA) 方法,后者需要 2,396 GPU 小时的训练。值得注意的是,它可以将人类碰撞率降低 10% 以上,而无需在新环境中进行任何训练。通过消除针对特定环境的训练的需要,SocialNav-Map 实现了卓越的导航性能,为在以不同人类行为为特征的现实环境中部署社交导航系统铺平了道路。该代码位于:此 https URL ...
为了增强大型语言模型 (LLM) 的推理能力,同时无需高昂的训练成本或大量的测试时间采样,我们引入了验证优先 (VF),这是一种提示模型在生成解决方案之前验证所提供的候选答案(即使是微不足道或随机的答案)的策略。这种方法触发了“反向推理”过程,该过程在认知上更容易,并且是对标准正向思维链 (CoT) 的补充,有效地调用模型的批判性思维来减少逻辑错误。我们进一步将 VF 策略推广到 Iter-VF,这是一种顺序测试时间缩放 (TTS) 方法,它使用模型先前的答案迭代地循环验证生成过程。跨各种基准(从数学推理到编码和代理任务)和各种 LLM(从开源 1B 到尖端商业 LLM)的广泛实验证实,具有随机答案的 VF 始终优于标准 CoT,且计算开销最小,而 Iter-VF 优于现有 TTS 策略 ...
本文通过统一多模态大语言模型(ULM)的组相对策略优化对强化学习(RL)进行了开创性的探索,旨在同时增强生成和理解能力。通过系统的试点研究,我们发现了 ULM 的巨大潜力,可以在共享策略优化框架内实现双重功能的协同共同进化。基于这一见解,我们引入了 CoRL,这是一种联合强化学习框架,包括用于联合优化的统一 RL 阶段和用于特定任务增强的精细 RL 阶段。通过提出的 CoRL,我们得到的模型 ULM-R1 在三个文本到图像生成数据集上实现了 7% 的平均改进,在 9 个多模态理解基准上实现了 23% 的平均改进。这些结果证明了 CoRL 的有效性,并强调了强化学习在促进 ULM 的跨任务协同和优化方面的实质性好处。代码可从此 https URL 获取 ...
近年来,检索增强生成(RAG)显着提高了大型语言模型(LLM)在知识密集型任务上的性能。然而,由于检索系统可能返回不相关的内容,因此将此类信息合并到模型中通常会导致幻觉。因此,识别和过滤掉无用的检索内容是改进 RAG 的关键挑战。这个 http URL 更好地将模型的内部知识与检索的外部知识结合起来,了解模型“知道”和“不知道”的内容(也称为“自知之明”)至关重要。基于这一见解,我们提出了 SKILL-RAG(RAG 的自知识诱导学习和过滤),这是一种利用模型的自知识来确定哪些检索到的文档有利于回答给定查询的新颖方法。我们设计了一个基于强化学习的训练框架,以明确地从模型中引出自我知识,并采用句子级粒度来过滤掉不相关的内容,同时保留有用的http URL,在几个问答基准上使用 Llama2-7B 和 Qwen3-8B 评估 SKILL-RAG。实验结果表明,SKILL-RAG不仅提高了生成质量,而且显着减少了输入文档的数量,验证了自我知识在指导高质量检索选择中的重要性 ...
多年来,自动化程序修复领域引起了人们的极大兴趣,但尽管进行了大量的研究工作,但事实证明,创建一个能够很好地解决复杂语义错误(例如安全漏洞)的系统很困难。解决这一挑战的一个有前景的方向是利用大型语言模型 (LLM),该模型越来越多地用于解决各种编程任务。在本文中,我们研究了 LLM 解决代码修复任务的有效性。我们表明,这项任务很困难,因为它需要模型学习远程代码关系,而这项任务本质上依赖于大量的训练数据。同时,为复杂的程序错误及其相应的修复创建一个大型、干净的数据集并非易事。我们提出了一种技术来通过查询和微调 LLM 的新方法来应对这些挑战。这个想法是使用程序分析来限制 LLM 对执行修复所需的代码部分的注意力机制,从而大大减少所需的训练数据量。具体来说,对于训练和推理,我们不是将整个程序提供给 LLM,而是将其代码缩减为更短的代码片段,其中包含报告的缺陷以及必要的上下文 - 并使用它。我们的评估表明,这种代码缩减方法极大地改进了可用模型,例如使用少样本学习的 GPT-4,以及微调模型。为了训练和评估我们的系统,我们通过广泛标记 156 个错误模式(包括 40 个安全规则)创建了一个全面的代码修复数据集,需要复杂的过程间数据流来发现。我们使用 Mixtral-8x7B 的最佳系统可以消除超过 80% 的报告缺陷,同时在 10% 到 50% 的情况下与人工修复完全匹配,优于基于 GPT-3.5 和 GPT-4 或基于基于窗口的模型(如 TFix)的基线 ...