- 名称
- An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models
- 描述
大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力 ...
大型多模态模型 (LMM) 在一系列视觉和语言任务中取得了出色的性能。然而,他们的空间推理能力尚未得到充分研究。在本文中,我们构建了一个新颖的 VQA 数据集 Spatial-MM,以全面研究 LMM 的空间理解和推理能力 ...