arxiv GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

名称
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
首页
https://yiyibooks.cn/arxiv/2501.01428v3/index.html
原始地址
https://arxiv.org/pdf/2501.01428
描述
近年来,2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而,它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入,产生了有希望的结果 ...