了解单个智能体如何在集体中做出战略决策对于推进经济学、神经科学和多智能体系统等多元化领域非常重要。为此可以整合两种互补的方法。主动推理框架(AIF)描述了智能体如何利用生成模型来调整他们对环境的信念和行为 ...
在基础模型中实现智能代理行为的核心部分是使它们能够在更多计算或交互可用时反思自己的行为、推理并纠正错误。即使是最强大的专有大语言模型(LLM)也没有完全表现出连续改进其响应的能力,即使在明确告知他们犯了错误的情况下也是如此。在本文中,我们开发了 RISE:Recursive IntroSpEction,这是一种微调 LLM 以引入此功能的方法,尽管之前的工作假设这种功能可能无法实现 ...
当与 Lean 等交互式证明助手集成时,大型语言模型 (LLM) 在数学推理任务(例如形式定理证明)中取得了成功。现有的方法涉及在特定数据集上训练或微调 LLM ,以使其在特定领域(例如本科水平的数学)表现良好。这些方法很难推广到高等数学 ...
大型语言模型 (LLM) 在解决跨不同领域的复杂任务方面表现出了巨大的潜力,通常通过采用遵循详细指令和操作序列的代理工作流程。然而,构建这些工作流程需要大量的人力,限制了可扩展性和通用性。最近的研究试图自动生成和优化这些工作流程,但现有方法仍然依赖于初始手动设置,无法实现完全自动化和有效的工作流程生成 ...
以最少的人为干预完成复杂的计算机任务的自主代理有可能改变人机交互,显着提高可访问性和生产力。然而,现有的基准测试要么缺乏交互式环境,要么仅限于特定应用程序或领域的环境,无法反映现实世界计算机使用的多样性和复杂性,从而限制了任务的范围和代理的可扩展性。为了解决这个问题,我们推出了 OSWorld,这是第一个可扩展的、真实的多模式代理计算机环境,支持任务设置、基于执行的评估以及跨各种操作系统(例如 U ...
估计智能体未来食谱的联合分配自动决策关键。在一份技术报告中,我们提出了一种称为 QCNeXt 的下一代智能体食谱预测框架。首先,我们采用以查询为中心的范式编码式来完成联合多智能体轨迹预测的任务... ...
视觉语言模型 (VLM) 的训练语料库通常缺乏足够数量的以决策为中心的数据。这使得现成的 VLM 不太适合决策任务,例如通过图形用户界面 (GUI) 进行野外设备控制。虽然静态演示训练已显示出一些希望,但我们表明,此类方法无法控制真实的 GUI,因为它们无法处理静态观测数据中未捕获的现实世界随机性和非平稳性 ...
最近发布的模型 Claude 3.5 Computer Use 是第一个在公开测试版中提供计算机使用作为图形用户界面 (GUI) 代理的前沿人工智能模型。作为早期测试版,其在现实复杂环境中的能力仍然未知 ...