- 名称
- GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
- 描述
近年来,2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而,它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入,产生了有希望的结果 ...
近年来,2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而,它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入,产生了有希望的结果 ...