通过文本链(COT),多模式推理的最新进展已大大提高,这是一种模型在语言中进行推理的范式。但是,这种以文本为中心的方法将视觉视为一种静态的初始上下文,在丰富的感知数据和离散的符号思想之间产生了基本的“语义差距”。人类认知通常会超越语言,将视觉作为动态的心理素描本 ...

0 0 0 0 2025/07/06 arXiv:2506.23918v3 zhang_yiyi

推理是智力的核心,塑造了做出决策,得出结论并跨越领域的能力。在人工智能中,随着系统越来越多地在开放,不确定和多模式环境中运行,推理对于实现鲁棒和适应性行为至关重要。大型多模式推理模型(LMRMS)已成为一种有希望的范式,将诸如文本,图像,音频和视频之类的模式集成在一起,以支持复杂的推理能力,并旨在获得全面的感知,精确的理解和深刻的推理 ...

0 0 0 0 2025/05/09 arXiv:2505.04921v1 zhang_yiyi

大型语言模型(LLMS)具有重塑自然语言处理,从多跳检索和答案到自主代理工作流程的应用程序。然而,迅速的工程 - 将文本输入编写为有效直接LLM的任务 - 仍然很困难和劳动密集型,尤其是对于将多个LLM调用与功能操作相结合的复杂管道,例如检索和数据格式。我们介绍了LLM-Autodiff:自动及时工程(APE)的新型框架,该框架将基于文本梯度的方法(例如文本研究生)扩展到多组分,可能是循环的LLM架构 ...

0 0 0 0 2025/01/30 arXiv:2501.16673v1 zhang_yiyi