通过将外部检索与语言生成整合在一起,可以作为一个有力的框架来克服大型语言模型(LLMS)的知识限制。尽管基于静态管道的早期抹布系统在结构良好的任务中显示出有效性,但它们在现实的场景中挣扎,需要复杂的推理,动态检索和多模式集成。为了应对这些挑战,该领域已转向推理代理抹布,这是一种将决策和自适应工具直接使用到检索过程中的范式 ...
大型语言模型代理的最新进展为通过图形用户界面(GUI)自动化任务开辟了新的可能性,尤其是在智能互动可以大大提高可用性的移动环境中。但是,这种代理的实际部署仍受到几个关键挑战的限制。现有的培训数据通常是嘈杂的,缺乏语义多样性,这阻碍了学习精确的基础和计划 ...
有效的及时设计对于提高大语模型(LLM)驱动代理的计划功能至关重要。但是,现有的结构化提示策略通常仅限于单一代理,只有计划的设置,并且通常仅基于任务准确性来评估性能 - 忽略了关键因素,例如多代理环境中的 Token 效率,模块化和可扩展性。为了解决这些限制,我们介绍了代码,这是一个促使框架,该框架编码多代理推理并启用多代理系统中结构化的,有效的计划 ...
随着大型语言模型(LLMS)越来越多地充当社会环境中的自主代理,因此了解其亲社会行为的能力变得至关重要。我们提出了Prosim,这是一个模拟框架,旨在研究在不同的社会和制度条件下基于LLM的代理商中的亲社会行为如何适应,适应和侵蚀。该框架包括四个组成部分:单个模拟,场景仿真,相互作用模拟和干预模拟 ...
大型语言模型(LLM)表现出强大的解决问题的能力,尤其是在多机构系统中组织的。但是,此类系统的出现也提出了一些有关复杂代理网络有效自我组织和协作的能力的问题。虽然测量标准推理基准的性能表明多代理系统能够解决推理任务的能力,但尚不清楚这些系统是否能够有效利用其拓扑 ...
最近的研究利用大型语言模型多代理系统进行复杂的问题解决,同时试图减少构建它们所需的手动努力,从而推动自动化代理工作流优化方法的开发。但是,由于代表性限制,缺乏适应性和依赖离散优化技术的可扩展性,现有方法仍然不灵活。我们通过ScoreFlow解决这些挑战,ScoreFlow是一个简单而高性能的框架,利用了连续空间中有效的基于梯度的优化 ...
我们推出 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对 ...
多机构系统(MAS)已成为精心策划大型语言模型(LLM)和专门解决复杂任务的专业工具的强大范式。但是,现有的MAS框架通常需要手动工作流程配置,并且缺乏对动态演化和性能优化的本地支持。此外,许多MAS优化算法未集成到统一框架中 ...