我们介绍了代理过程奖励模型(AgentPRM),这是一个简单且可扩展的框架,用于训练LLM代理,以通过交互作用不断改进。 AgentPrm遵循轻巧的参与者批评范式,使用蒙特卡洛推出来计算奖励目标并优化策略。它需要对现有RLHF管道的最小修改,从而易于大规模集成 ...
大语言模型(LLM)的成功引发了人们对各种代理应用的兴趣。一个关键的假设是,LLM利用常识和思想链(COT)推理可以有效地探索并有效地解决复杂的领域。但是,已经发现LLM代理患有次优探索和知识差距,无法有效地对模型中存在的知识作用 ...
财务决策需要处理大量的实时信息,同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色,但他们经常努力理解复杂的用户意图和上下文细微差别。相反,大型语言模型(LLMS)展示了推理和交互功能,但可能会产生不可靠的输出,而无需访问当前数据 ...
化学推理通常涉及需要精确计算的复杂的多步骤过程,即使是较小的错误也会导致级联故障。此外,大型语言模型(LLMS)会遇到困难处理特定于域的公式,准确执行推理步骤,并在处理化学推理任务时有效地集成代码。为了应对这些挑战,我们提出了Chemagent,这是一个新颖的框架,旨在通过动态的自我更新库来提高LLM的性能 ...
大型语言模型(LLM)通常在需要精确,可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习(RL)增强了基于文本的推理,但了解代理如何自主学习利用诸如代码执行(例如代码执行)仍然至关重要。我们研究了基于结果的奖励的RL,以用于工具集成推理,Zerotir,培训基础LLMS,以自发生成和执行Python代码,以解决数学问题,而无需监督的工具使用示例 ...
从历史上看,科学发现一直是一个漫长而昂贵的过程,从最初的概念到最终结果需要大量时间和资源。为了加速科学发现,降低研究成本并提高研究质量,我们介绍了代理实验室,这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想,并通过三个阶段进行了进展 - 验证,实验和报告写作,以产生全面的研究成果,包括代码存储库和研究报告,同时使用户能够在每个阶段提供反馈和指导 ...
大型语言模型(LLM)代理通常采用逐步推理框架,在该框架中,他们交织了思考和行动以完成给定任务的过程。但是,该范式面临着根深蒂固的一通问题,每个产生的中间思想都会插入轨迹中,无论其正确性如何,这可能会导致不可逆的错误传播。为了解决这个问题,本文提出了一个新颖的框架,称为“发电机辅助逐步回滚”(GA-ROLLBACK),以诱导LLM代理的更好决策 ...
当通过大型语言模型(LLM)增强的多代理系统在集体智能中具有深远的能力。但是,出于恶意目的,这种情报的潜在滥用带来了重大风险。迄今为止,关于与多代理系统相关的安全问题的全面研究仍然有限 ...