arxiv An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models

名称
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models
首页
https://yiyibooks.cn/arxiv/2411.06048v1/index.html
原始地址
https://arxiv.org/pdf/2411.06048
描述
大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力 ...