通过文本链(COT),多模式推理的最新进展已大大提高,这是一种模型在语言中进行推理的范式。但是,这种以文本为中心的方法将视觉视为一种静态的初始上下文,在丰富的感知数据和离散的符号思想之间产生了基本的“语义差距”。人类认知通常会超越语言,将视觉作为动态的心理素描本 ...

0 0 0 0 2025/07/06 arXiv:2506.23918v3 zhang_yiyi

推理是智力的核心,塑造了做出决策,得出结论并跨越领域的能力。在人工智能中,随着系统越来越多地在开放,不确定和多模式环境中运行,推理对于实现鲁棒和适应性行为至关重要。大型多模式推理模型(LMRMS)已成为一种有希望的范式,将诸如文本,图像,音频和视频之类的模式集成在一起,以支持复杂的推理能力,并旨在获得全面的感知,精确的理解和深刻的推理 ...

0 0 0 0 2025/05/09 arXiv:2505.04921v1 zhang_yiyi