基本信息 - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

arxiv GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

阅读

Star 0

名称: GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

首页: https://yiyibooks.cn/arxiv/2501.01428v3/index.html

原始地址: https://arxiv.org/pdf/2501.01428

描述

近年来，2D 视觉语言模型 (VLM) 在图像文本理解任务中取得了重大进展。然而，它们在对体现智能至关重要的 3D 空间理解方面的表现仍然有限。最近的进展利用 3D 点云和多视图图像作为输入，产生了有希望的结果 ...

0%

上传成功 0 个文件