zhang_yiyi的文档

zhang_yiyi

个性签名 ...

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

通过文本链（COT），多模式推理的最新进展已大大提高，这是一种模型在语言中进行推理的范式。但是，这种以文本为中心的方法将视觉视为一种静态的初始上下文，在丰富的感知数据和离散的符号思想之间产生了基本的“语义差距”。人类认知通常会超越语言，将视觉作为动态的心理素描本 ...

0 0 0 0 2025/07/06 arXiv:2506.23918v3 zhang_yiyi

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

推理是智力的核心，塑造了做出决策，得出结论并跨越领域的能力。在人工智能中，随着系统越来越多地在开放，不确定和多模式环境中运行，推理对于实现鲁棒和适应性行为至关重要。大型多模式推理模型（LMRMS）已成为一种有希望的范式，将诸如文本，图像，音频和视频之类的模式集成在一起，以支持复杂的推理能力，并旨在获得全面的感知，精确的理解和深刻的推理 ...

0 0 0 0 2025/05/09 arXiv:2505.04921v1 zhang_yiyi

Auto-Differentiating Any LLM Workflow: A Farewell to Manual Prompting

大型语言模型（LLMS）具有重塑自然语言处理，从多跳检索和答案到自主代理工作流程的应用程序。然而，迅速的工程 - 将文本输入编写为有效直接LLM的任务 - 仍然很困难和劳动密集型，尤其是对于将多个LLM调用与功能操作相结合的复杂管道，例如检索和数据格式。我们介绍了LLM-Autodiff：自动及时工程（APE）的新型框架，该框架将基于文本梯度的方法（例如文本研究生）扩展到多组分，可能是循环的LLM架构 ...

0 0 0 0 2025/01/30 arXiv:2501.16673v1 zhang_yiyi

AgentKit: Structured LLM Reasoning with Dynamic Graphs

我们为多功能代理提出了一个直观的 LLM 提示框架（AgentKit）。 AgentKit 提供了一个统一的框架，用于根据简单的自然语言提示显式构建复杂的“思维过程”。 AgentKit 中的基本构建块是一个节点，其中包含特定子任务的自然语言提示 ...

0 0 0 0 2024/12/24 arXiv:2404.11483v2 zhang_yiyi

Practical Considerations for Agentic LLM Systems

近年来，随着大型语言模型（LLM）的实力不断增强，人们对将其用作自主代理的基础模型也产生了兴趣。尽管 LLM 展示了跨自然语言领域的新兴能力和广泛的专业知识，但其固有的不可预测性使得 LLM 代理的实施具有挑战性，导致相关研究与此类系统的实际实施之间存在差距。为了弥合这一差距，本文在已建立的应用范例的背景下框架了研究界的可行见解和考虑因素，以实现强大的 LLM 代理的构建和促进明智的部署 ...

0 0 0 0 2024/12/08 arXiv:2412.04093v1 zhang_yiyi

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

本文对当前复制 OpenAI 的 O1 模型功能的方法进行了严格的审查，特别关注广泛但往往未公开的知识蒸馏技术的使用。虽然我们之前的工作探索了 O1 复制的基本技术路径，但这项研究揭示了 O1 API 的简单提炼，与监督微调相结合，如何能够在复杂的数学推理任务上实现卓越的性能。通过大量的实验，我们表明，在美国数学邀请赛 (AIME) 上，仅对数万个样本 O1 蒸馏的长思维链进行微调的基本模型就优于 O1 预览，且技术复杂性最低 ...

0 1 0 0 2024/11/26 arXiv:2411.16489v1 zhang_yiyi

Demystifying Chains, Trees, and Graphs of Thoughts

近年来，自然语言处理 (NLP) 领域取得了重大进展，特别关注通过创新的提示技术提高大型语言模型 (LLM) 的性能。其中，与结构相结合的即时工程已成为一种有前途的范式，其设计包括思想链、思想树或思想图，其中整体 LLM 推理是由图等结构引导的。正如许多例子所示，这种范式显着增强了 LLM 解决众多任务的能力，从逻辑或数学推理到规划或创意写作 ...

0 0 0 0 2024/11/13 arXiv:2401.14295v3 zhang_yiyi

Tool Learning with Foundation Models

人类拥有创造和利用工具的非凡能力，使他们能够克服身体限制并探索新领域。随着基础模型的出现，人工智能系统有可能像人类一样熟练地使用工具。这个范式，i ...

0 0 0 0 2024/11/12 arXiv:2304.08354v3 zhang_yiyi

Internal Consistency and Self-Feedback in Large Language Models: A Survey

大型语言模型 (LLM) 预计能够准确响应，但通常会表现出推理缺陷或生成幻觉内容。为了解决这些问题，人们开始进行以“自我”为前缀的研究，例如自我一致性、自我改进和自我完善。它们有一个共同点： LLM 需要自我评估和更新以缓解问题 ...

0 0 0 0 2024/11/11 arXiv:2407.14507v3 zhang_yiyi

MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

检索增强生成（RAG）利用检索工具访问外部数据库，从而通过优化上下文来提高大语言模型（LLM）的生成质量。然而，现有的检索方法存在固有的局限性，因为它们只能在明确陈述的查询和格式良好的知识之间进行相关性匹配，而无法处理涉及模糊信息需求或非结构化知识的任务。因此，现有的 RAG 系统主要适用于简单的问答任务 ...

0 0 0 0 2024/09/10 arXiv:2409.05591v1 zhang_yiyi