研究人员正在投入大量努力来开发强大的通用代理,其中将基础模型用作代理系统(例如,经过思考链,自我反射,工具形式)的模块 ...
这项研究对AI代理和代理AI进行了严格的区分,提供了结构化的概念分类法,应用映射和挑战分析,以阐明其不同的设计理念和能力。我们首先概述搜索策略和基础定义,将AI代理描述为由大语言模型(LLMS)和大型图像模型(LIM)驱动的模块化系统,用于狭窄,特定于任务的自动化。生成的AI被定位为前体,AI代理通过工具集成,及时的工程和推理增强来推进 ...
我们介绍了代理过程奖励模型(AgentPRM),这是一个简单且可扩展的框架,用于训练LLM代理,以通过交互作用不断改进。 AgentPrm遵循轻巧的参与者批评范式,使用蒙特卡洛推出来计算奖励目标并优化策略。它需要对现有RLHF管道的最小修改,从而易于大规模集成 ...
大语言模型(LLM)的成功引发了人们对各种代理应用的兴趣。一个关键的假设是,LLM利用常识和思想链(COT)推理可以有效地探索并有效地解决复杂的领域。但是,已经发现LLM代理患有次优探索和知识差距,无法有效地对模型中存在的知识作用 ...
财务决策需要处理大量的实时信息,同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色,但他们经常努力理解复杂的用户意图和上下文细微差别。相反,大型语言模型(LLMS)展示了推理和交互功能,但可能会产生不可靠的输出,而无需访问当前数据 ...
化学推理通常涉及需要精确计算的复杂的多步骤过程,即使是较小的错误也会导致级联故障。此外,大型语言模型(LLMS)会遇到困难处理特定于域的公式,准确执行推理步骤,并在处理化学推理任务时有效地集成代码。为了应对这些挑战,我们提出了Chemagent,这是一个新颖的框架,旨在通过动态的自我更新库来提高LLM的性能 ...
大型语言模型(LLM)通常在需要精确,可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习(RL)增强了基于文本的推理,但了解代理如何自主学习利用诸如代码执行(例如代码执行)仍然至关重要。我们研究了基于结果的奖励的RL,以用于工具集成推理,Zerotir,培训基础LLMS,以自发生成和执行Python代码,以解决数学问题,而无需监督的工具使用示例 ...
从历史上看,科学发现一直是一个漫长而昂贵的过程,从最初的概念到最终结果需要大量时间和资源。为了加速科学发现,降低研究成本并提高研究质量,我们介绍了代理实验室,这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想,并通过三个阶段进行了进展 - 验证,实验和报告写作,以产生全面的研究成果,包括代码存储库和研究报告,同时使用户能够在每个阶段提供反馈和指导 ...