之前关于培训软件工程代理的工作已经探索利用现有资源(例如 GitHub 存储库上的问题)来构建软件工程任务和相应的测试套件。这些方法面临两个关键限制:(1) 它们对现有 GitHub 存储库的依赖提供了有限的灵活性,(2) 它们主要关注问题解决任务,这限制了它们对软件工程师必须处理的更广泛任务的适用性。为了克服这些挑战,我们引入了 SWE-Playground,这是一种用于生成环境和轨迹的新颖管道,支持多功能编码代理的训练。与之前的工作不同,SWE-Playground 使用强大的语言模型和代理从头开始综合生成项目和任务,消除了对外部数据源的依赖。这使我们能够处理更广泛的编码任务,例如通过生成单元测试和从头开始实现库来重现问题。我们在三个不同的基准上证明了这种方法的有效性,结果表明 SWE-Playground 产生具有密集训练信号的轨迹,使代理能够以比以前的工作少得多的轨迹达到相当的性能 ...
大型语言模型具有先进的软件工程自动化,但解决现实世界的软件问题仍然很困难,因为它需要存储库级推理、准确的诊断和强大的验证信号。现有的基于代理和基于管道的方法通常依赖于不充分的测试,这可能导致补丁满足验证但无法修复潜在的缺陷。我们提出了 InfCode,一种用于自动化存储库级问题解决的对抗性多代理框架。 InfCode 通过测试补丁生成器和代码补丁生成器之间的对抗性交互来迭代地完善测试和补丁,而选择器代理则确定最可靠的修复。该框架在容器化环境中运行,支持实际的存储库检查、修改和验证。使用 DeepSeek-V3 和 Claude 4.5 Sonnet 等模型在 SWE-bench Lite 和 SWE-bench Verified 上进行的实验表明,InfCode 始终优于强大的基线。它在 SWE-bench Verified 上实现了 79.4% 的性能,建立了新的最先进水平。我们已在此 https URL 上将 InfCode 作为开源项目发布 ...
代理强化学习越来越依赖于经验驱动的扩展,但现实世界的环境仍然不具有适应性、覆盖范围有限且难以扩展。世界模型提供了一种通过模拟体验来提高学习效率的潜在方法,但目前尚不清楚大型语言模型是否能够可靠地发挥这一作用,以及在什么条件下它们可以使智能体受益。我们在基于文本的环境中研究这些问题,该环境提供了一种受控设置,可以将语言模型重新解释为交互下的下一状态预测。我们引入了一个三级框架来评估基于 LLM 的世界模型:(i)保真度和一致性,(ii)可扩展性和鲁棒性,以及(iii)代理效用。在五个代表性环境中,我们发现经过充分训练的世界模型保持一致的潜在状态,可根据数据和模型大小进行可预测的扩展,并通过动作验证、合成轨迹生成和热启动强化学习来提高代理性能。同时,这些收益主要取决于行为覆盖范围和环境复杂性,从而为世界建模何时有效支持代理学习划定了明确的界限 ...
具有训练能力的大型语言模型(LLM)代理受到现实世界交互数据的高成本和静态特性的严重瓶颈。我们通过引入 GenEnv 来解决这个问题,该框架在代理和可扩展的生成环境模拟器之间建立了难度一致的共同进化游戏。与在静态数据集上演化模型的传统方法不同,GenEnv 实例化了数据演化:模拟器充当动态课程策略,不断生成专门针对代理的“最近发展区域”定制的任务。此过程由简单但有效的$\alpha$-课程奖励指导,它将任务难度与代理的当前能力相结合。我们根据五个基准评估 GenEnv,包括 API-Bank、ALFWorld、BFCL、Bamboogle 和 TravelPlanner。在这些任务中,GenEnv 将代理性能提高了 7B 基线高达 \textbf{+40.3\%},并且匹配或超过了较大模型的平均性能。与基于 Gemini 2.5 Pro 的离线数据增强相比,GenEnv 实现了更好的性能,同时使用的数据减少了 3.3$\time$。通过从静态监督转向自适应模拟,GenEnv 为扩展代理功能提供了一条数据高效的途径 ...
当前的编码基准针对具体的、明确指定的任务(例如修复特定错误或编写有针对性的测试)来评估语言模型(LM)。然而,人类程序员不会整天不停地处理孤立的任务。相反,现实世界的软件开发是基于追求高层次目标,例如提高用户保留率或降低成本。评估 LM 是否也可以在没有任何明确指导的情况下迭代开发代码以更好地实现开放式目标仍然是一个开放的挑战。为了解决这个问题,我们引入了 CodeClash,这是一个基准测试,LM 在多轮锦标赛中竞争,以构建最佳代码库来实现竞争目标。每轮分两个阶段进行:代理编辑他们的代码,然后他们的代码库在代码竞技场中正面竞争,根据得分最大化、资源获取或生存等目标确定获胜者。无论是写笔记、检查文档、分析竞赛日志还是创建测试套件,模型都必须自己决定如何绝对地改进其代码库并对抗对手。我们举办了 1680 场锦标赛(总共 25,200 轮)来评估 6 个竞技场中的 8 个 LM。我们的结果表明,虽然模型表现出不同的开发风格,但它们在战略推理方面存在根本局限性。随着存储库变得越来越混乱和冗余,模型还难以进行长期代码库维护。这些限制是显而易见的:顶级模型在与专业人类程序员的比赛中每一轮都输了。我们开源 CodeClash 来推进自主、面向目标的代码开发的研究 ...
代理、基于语言模型 (LM) 的系统能够进行推理、规划和行动,正在成为现实世界人工智能应用的主导范例。尽管得到了广泛采用,但决定其性能的原则仍未得到充分探索,使得从业者只能依靠启发式方法而不是有原则的设计选择。我们通过推导代理系统的定量扩展原则来解决这一差距。我们通过四个不同的基准对其进行评估:Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench。使用跨三个 LLM 系列实例化的五种规范架构(单一、独立、集中、分散、混合),我们使用标准化工具和 Token 预算执行涵盖 180 种配置的受控评估。我们使用经验协调指标(包括效率、开销、误差放大和冗余)推导出一个预测模型,该模型实现了交叉验证的 R^2=0.513。我们确定了三个主要影响:(1)工具协调权衡:在固定的计算预算下,工具繁重的任务不成比例地受到多代理开销的影响。 (2) 能力饱和:一旦单智能体基线超过约 45%,协调就会产生递减或负回报(beta=-0.408,p<0.001)。 (3) 拓扑相关的错误放大:独立代理通过不受控制的传播将错误放大 17.2 倍,而集中协调将其放大至 4.4 倍。集中式协调将财务推理等可并行任务的性能提高了 80.9%,而分散式协调则在动态 Web 导航方面表现出色(+9.2% 与 +0.2%)。然而,对于顺序推理任务,所有多智能体变体的性能均下降了 39-70%。该框架可以预测 87% 的保留配置的最佳协调策略,提供基于可测量任务属性的代理扩展的预测原理 ...
大型语言模型 (LLM) 的最新进展凸显了强化学习 (RL) 促进推理能力出现的潜力。尽管取得了令人鼓舞的结果,但一个根本性的困境仍然存在,因为强化学习的改进依赖于高质量样本的学习,而对此类样本的探索仍然受到 LLM 固有局限性的限制。这实际上造成了一个不良循环,无法探索的东西就无法学习 ...
LLM 作为法官的范式正在成为人类评估的可扩展且高效的替代方案,在明确定义的任务上表现出强大的表现。然而,其在动态环境和复杂交互的开放式任务中的可靠性仍有待探索。为了弥补这一差距,我们引入了WebDevJudge,这是一个用于评估 LLM 作为法官在网络开发中表现的系统基准,支持基于静态观察的非交互式评估和动态网络环境的持续交互式评估。 WebDevJudge 包含配对网络实现上的人类偏好标签,并用结构化和基于查询的规则进行注释,以确保高质量的基本事实。使用这个基准,我们全面评估各种评估者,包括 LLM 、MLLM 和代理工作流程。我们系统地研究不同范式和指导机制的影响。我们的实验揭示了 LLM 法官和人类专家之间的显着差距。深入分析表明,这种差距源于基本模型的局限性,包括未能识别功能等效性、验证任务可行性和减轻偏差。总体而言,WebDevJudge 对作为法官的 LLM 提出了重大挑战,它提供了见解来指导未来的研究,为复杂的场景开发更可靠、更有能力的自动评估器。代码和数据可从此 https URL 获取 ...
考虑到庞大且不断发展的代码库,自动生成整体的、架构感知的文档的能力仍然是一个开放的挑战,这些文档不仅捕获单个功能,而且捕获跨文件、跨模块和系统级交互。全面的文档对于长期软件维护和协作至关重要,但当前的自动化方法仍然无法对定义现实世界软件系统的丰富语义依赖关系和架构结构进行建模。我们提出了 \textbf{CodeWiki},这是一个跨七种编程语言的自动化存储库级文档的统一框架。 CodeWiki 引入了三项关键创新:(i) 分层分解,在多个粒度级别上保留架构上下文;(ii) 具有动态任务委托的递归多代理处理,以实现可扩展的生成;(iii) 多模式合成,将文本描述与视觉工件(例如架构图和数据流表示)集成。为了实现严格的评估,我们引入了 \textbf{CodeWikiBench},这是一个具有多维评分标准和基于 LLM 的评估协议的综合基准。实验结果表明,CodeWiki 使用专有模型获得了 68.79\% 的质量得分,比闭源 DeepWiki 基线 (64.06\%) 提高了 4.73\%,尤其是在高级脚本语言方面的改进尤为显着 (+10.47\%)。我们开源 CodeWiki 以促进未来的研究和社区采用 ...
现实世界的企业数据智能工作流程包括将原始数据源转化为可分析的表格的数据工程,以及将这些表格转化为面向决策的见解的数据分析。我们引入了 DAComp,这是一个包含 210 项任务的基准,反映了这些复杂的工作流程。数据工程 (DE) 任务需要对工业模式进行存储库级工程,包括从头开始设计和构建多阶段 SQL 管道,以及根据不断变化的需求改进现有系统。数据分析 (DA) 任务提出了开放式业务问题,需要战略规划、通过迭代编码进行探索性分析、解释中间结果以及综合可行的建议。工程任务通过基于执行的多指标评估进行评分。开放式任务由可靠的、经过实验验证的 LLM 评审进行评估,该评审以分层的、精心设计的评估标准为指导。我们的实验表明,即使是最先进的代理在 DAComp 上也会出现问题。 DE 任务的性能特别低,成功率低于 20%,暴露了整体管道编排的关键瓶颈,而不仅仅是代码生成。 DA 任务的平均得分也低于 40%,凸显了开放式推理的严重缺陷,并表明工程和分析是截然不同的能力。通过清楚地诊断这些限制,DAComp 提供了严格且现实的测试平台,以推动为企业环境开发真正强大的自主数据代理。我们的数据和代码可在此 https URL 获取 ...