arxiv Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation

/documents/72141/

基本信息

文件基本信息

名称
Fly0: Decoupling Semantic Grounding from Geometric Planning for Zero-Shot Aerial Navigation
描述
当前的视觉语言导航(VLN)方法面临着语义理解和控制精度之间的权衡。虽然多模态大型语言模型 (MLLM) 提供卓越的推理能力,但将它们部署为低级控制器会导致高延迟、轨迹振荡以及由于几何基础薄弱而导致泛化能力差。为了解决这些限制,我们提出了 Fly0,一个将语义推理与几何规划分离的框架。所提出的方法通过三级管道进行操作:(1)MLLM 驱动模块,用于将自然语言指令转化为 2D 像素坐标; (2)几何投影模块,利用深度数据在3D空间中定位目标; (3) 生成无碰撞轨迹的几何规划器。即使失去视觉接触,这种机制也能实现稳健的导航。通过消除连续推理的需要,Fly0 减少了计算开销并提高了系统稳定性。模拟和现实环境中的大量实验表明,Fly0 的性能优于最先进的基线,在非结构化环境中将成功率提高了 20% 以上,并将导航错误 (NE) 减少了约 50%。我们的代码可以在这个 https URL 上找到 ...