arxiv GridMM: Grid Memory Map for Vision-and-Language Navigation

名称
GridMM: Grid Memory Map for Vision-and-Language Navigation
首页
https://yiyibooks.cn/arxiv/2307.12907v4/index.html
原始地址
https://arxiv.org/abs/2307.12907
描述
视觉和语言导航 (VLN) 使代理能够按照 3D 环境中的自然语言指令导航到远程位置。为了表示先前访问的环境,大多数 VLN 方法使用循环状态、拓扑图或自上而下的语义图来实现内存。与这些方法相反,我们构建了自上而下的以自我为中心且动态增长的网格内存映射(即网格内存映射) ...