arxiv Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

/documents/70169/

基本信息

文件基本信息

名称
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning
描述
本文介绍了 Scene-LLM,这是一种 3D 视觉语言模型,它通过集成大型语言模型 (LLM) 的推理优势来增强实体代理在交互式 3D 室内环境中的能力。 Scene-LLM采用混合3D视觉特征表示,包含密集的空间信息并支持场景状态更新。该模型采用投影层将这些特征有效地投影到预先训练的文本嵌入空间中,从而能够有效解释 3D 视觉信息。我们方法的独特之处在于集成了场景级和以自我为中心的 3D 信息。这种组合对于交互式规划至关重要,其中场景级数据支持全局规划,而以自我为中心的数据对于本地化非常重要。值得注意的是,我们使用以自我为中心的 3D 帧特征进行特征对齐,这是一种有效的技术,可以增强模型对齐场景内小物体特征的能力。我们对 Scene-LLM 进行的实验证明了其在密集字幕、问题回答和交互规划方面的强大功能。我们相信 Scene-LLM 推进了 3D 视觉理解和推理领域的发展,为室内环境中复杂的代理交互提供了新的可能性 ...