财务决策需要处理大量的实时信息,同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色,但他们经常努力理解复杂的用户意图和上下文细微差别。相反,大型语言模型(LLMS)展示了推理和交互功能,但可能会产生不可靠的输出,而无需访问当前数据 ...
化学推理通常涉及需要精确计算的复杂的多步骤过程,即使是较小的错误也会导致级联故障。此外,大型语言模型(LLMS)会遇到困难处理特定于域的公式,准确执行推理步骤,并在处理化学推理任务时有效地集成代码。为了应对这些挑战,我们提出了Chemagent,这是一个新颖的框架,旨在通过动态的自我更新库来提高LLM的性能 ...
大型语言模型(LLM)通常在需要精确,可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习(RL)增强了基于文本的推理,但了解代理如何自主学习利用诸如代码执行(例如代码执行)仍然至关重要。我们研究了基于结果的奖励的RL,以用于工具集成推理,Zerotir,培训基础LLMS,以自发生成和执行Python代码,以解决数学问题,而无需监督的工具使用示例 ...
从历史上看,科学发现一直是一个漫长而昂贵的过程,从最初的概念到最终结果需要大量时间和资源。为了加速科学发现,降低研究成本并提高研究质量,我们介绍了代理实验室,这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想,并通过三个阶段进行了进展 - 验证,实验和报告写作,以产生全面的研究成果,包括代码存储库和研究报告,同时使用户能够在每个阶段提供反馈和指导 ...
大型语言模型(LLM)代理通常采用逐步推理框架,在该框架中,他们交织了思考和行动以完成给定任务的过程。但是,该范式面临着根深蒂固的一通问题,每个产生的中间思想都会插入轨迹中,无论其正确性如何,这可能会导致不可逆的错误传播。为了解决这个问题,本文提出了一个新颖的框架,称为“发电机辅助逐步回滚”(GA-ROLLBACK),以诱导LLM代理的更好决策 ...
当通过大型语言模型(LLM)增强的多代理系统在集体智能中具有深远的能力。但是,出于恶意目的,这种情报的潜在滥用带来了重大风险。迄今为止,关于与多代理系统相关的安全问题的全面研究仍然有限 ...
我们介绍了Nocturne,这是一种新的2D驾驶模拟器,用于研究部分可观察性下的多代理协调。夜曲的重点是在现实世界多代理设置中对推理和心理理论进行研究,而没有计算机视觉的计算开销并从图像中提取特征。该模拟器中的代理只会观察到场景的障碍,模仿人类的视觉传感限制 ...
本文提出了一种新颖的风险敏感贸易代理,结合了加强学习和大型语言模型(LLMS)。我们通过添加风险评估和交易推荐信号来扩展有条件的风险近端政策优化(CPPO)算法。使用FNSPID数据集中的财务新闻数据和DeepSeek V3,QWEN 2,我们在NASDAQ-100指数基准测试中进行了重测测试 ...