zhang_yiyi的文档

zhang_yiyi

个性签名 ...

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

通过文本链（COT），多模式推理的最新进展已大大提高，这是一种模型在语言中进行推理的范式。但是，这种以文本为中心的方法将视觉视为一种静态的初始上下文，在丰富的感知数据和离散的符号思想之间产生了基本的“语义差距”。人类认知通常会超越语言，将视觉作为动态的心理素描本 ...

0 0 0 0 2025/07/06 arXiv:2506.23918v3 zhang_yiyi

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

推理是智力的核心，塑造了做出决策，得出结论并跨越领域的能力。在人工智能中，随着系统越来越多地在开放，不确定和多模式环境中运行，推理对于实现鲁棒和适应性行为至关重要。大型多模式推理模型（LMRMS）已成为一种有希望的范式，将诸如文本，图像，音频和视频之类的模式集成在一起，以支持复杂的推理能力，并旨在获得全面的感知，精确的理解和深刻的推理 ...

0 0 0 0 2025/05/09 arXiv:2505.04921v1 zhang_yiyi