arxiv Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

名称
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
首页
https://yiyibooks.cn/arxiv/2501.07542v1/index.html
原始地址
https://arxiv.org/abs/2501.07542
描述
事实证明,思想链 (CoT) 提示对于增强大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 中的复杂推理非常有效。然而,它在复杂的空间推理任务中表现不佳。尽管如此,人类认知超越了语言本身,具有以文字和图像进行思考的非凡能力 ...