代码生成和理解是大型语言模型 (LLM) 的关键功能。因此,大多数 LLM 都是根据代码数据进行预训练和微调的。然而,这些数据集通常将代码视为静态字符串,很少利用有关其执行的动态信息。在之前的跟踪建模工作的基础上,我们研究了执行调优 (E.T.),这是一种训练过程,在该过程中,我们可以显式地对真实世界的程序执行跟踪进行建模,而无需手动测试注释。我们在不同的执行跟踪粒度(行和指令级)和输出预测任务策略上训练和评估模型,在 CruxEval 和 MBPP 上获得约 80% 的准确率,并展示了动态暂存器(即由模型更新的独立中间计算,而不是作为过去计算的历史累积)在长时间执行(最多 14k 步骤)上的优势。最后,我们讨论 E.T. 的实际应用 ...
损失函数学习是一种新的元学习范式,旨在自动化为机器学习模型设计损失函数的基本任务。现有的损失函数学习技术已经显示出有希望的结果,通常可以提高模型的训练动态和最终的推理性能。然而,这些技术的一个显着限制是损失函数是以离线方式元学习的,其中元目标仅考虑训练的前几个步骤,这比通常用于训练深度神经网络的时间范围要短得多。这会导致对在训练开始时表现良好但在训练结束时表现不佳的损失函数产生显着偏差。为了解决这个问题,我们提出了一种新的损失函数学习技术,用于在每次更新基本模型参数后自适应地在线更新损失函数。实验结果表明,我们提出的方法在各种神经网络架构和数据集上始终优于交叉熵损失和离线损失函数学习技术 ...
众所周知,神经网络是一类高度表达的函数,甚至能够以 100\%$ 的精度拟合随机输入输出映射。在这项工作中,我们提出了神经网络的特性,以补充表达能力的这一方面。通过使用傅立叶分析工具,我们表明深度 ReLU 网络偏向于低频函数,这意味着它们不可能在不影响其全局行为的情况下出现局部波动。直观上,此属性与过度参数化网络发现可泛化到数据样本的简单模式的观察结果一致。我们还通过证明学习高频随着流形复杂性的增加而变得更容易来研究数据流形的形状如何影响表达性,并提出了对此行为的理论理解。最后,我们研究频率分量相对于参数扰动的鲁棒性,以形成必须对参数进行微调才能表达高频函数的直觉 ...
我们识别并形式化了一种基本的梯度下降现象,导致过度参数化神经网络的学习倾向。尽管存在无法发现的其他预测特征,但通过仅捕获与任务相关的特征子集来最小化交叉熵损失时,就会出现梯度饥饿。这项工作为神经网络中这种特征不平衡的出现提供了理论解释。使用动态系统理论的工具,我们识别了梯度下降过程中导致这种不平衡的学习动态的简单属性,并证明在训练数据中给定某些统计结构的情况下可以预期这种情况。基于我们提出的形式主义,我们为一种新颖的正则化方法提供了保证,该方法旨在解耦特征学习动态,在梯度饥饿阻碍的情况下提高准确性和鲁棒性。我们通过简单且真实的分布外 (OOD) 泛化实验来说明我们的发现 ...
虽然强化学习 (RL) 可以通过交互实现自我改进,从而增强自主代理的能力,但由于部署成本高昂、任务多样性有限、奖励信号不可靠以及基础设施复杂性,其实际采用仍然具有挑战性,所有这些都阻碍了可扩展经验数据的收集。为了应对这些挑战,我们推出了 DreamGym,这是第一个统一框架,旨在综合具有可扩展性的不同体验,以便为自主代理提供有效的在线 RL 训练。 DreamGym 没有依赖昂贵的真实环境部署,而是将环境动态提炼为基于推理的体验模型,该模型通过逐步推理导出一致的状态转换和反馈信号,从而为 RL 实现可扩展的代理部署收集。为了提高转换的稳定性和质量,DreamGym 利用使用离线现实世界数据初始化的体验重放缓冲区,并通过新的交互不断丰富,以积极支持代理培训。为了改善知识获取,DreamGym 自适应地生成挑战当前代理策略的新任务,从而实现更有效的在线课程学习。跨不同环境和代理主干的实验表明,无论是在完全合成的环境中还是在模拟到真实的传输场景中,DreamGym 都显着改善了 RL 训练。在 WebArena 等非 RL 就绪任务中,DreamGym 的性能优于所有基线 30% 以上。在 RL 就绪但成本高昂的设置中,它仅使用合成相互作用即可匹配 GRPO 和 PPO 性能。当将纯粹基于合成经验训练的策略转移到真实环境强化学习时,DreamGym 产生了显着的额外性能提升,同时需要更少的现实世界交互,为通用强化学习提供了可扩展的热启动策略 ...
在数字电路设计中,测试平台构成了基于仿真的硬件验证的基石。在基于仿真的硬件验证期间生成测试平台的传统方法仍然是部分手动的,导致测试各种场景的效率低下,并且需要设计人员花费大量时间。大型语言模型 (LLM) 已经展示了其在自动化电路设计流程方面的潜力。然而,直接应用 LLM 来生成测试平台的通过率较低。为了应对这一挑战,我们推出了 AutoBench,这是第一个用于数字电路设计的基于 LLM 的测试平台生成器,它只需要待测设计 (DUT) 的描述即可自动生成全面的测试平台。在AutoBench中,利用LLM实现了混合测试台结构和自检系统。为了验证生成的测试平台,我们还引入了自动化测试平台评估框架,从多个角度评估生成的测试平台的质量。实验结果表明,与使用 LLM 直接生成测试平台的基线相比,AutoBench 的测试平台通过@1 率提高了 57%。对于 75 个时序电路,与基线相比,AutoBench 成功实现了 3.36 倍的测试平台通过@1 率。源代码和实验结果在此链接中开源:此 https URL ...
大型语言模型(LLM)的传统基准通常依赖于通过讲故事或观点表达进行静态评估,这无法捕捉当代应用中实时信息处理的动态要求。为了解决这一限制,我们推出了 DynamicBench,这是一个旨在评估 LLM 在存储和处理最新数据方面的熟练程度的基准。 DynamicBench 利用双路径检索管道,将 Web 搜索与本地报告数据库集成。它需要特定领域的知识,确保在专业领域内生成准确的响应报告。通过评估提供或保留外部文档的场景中的模型,DynamicBench 可以有效地衡量其独立处理最新信息或利用上下文增强功能的能力。此外,我们还引入了先进的报告生成系统,擅长管理动态信息合成。我们的实验结果证实了我们方法的有效性,我们的方法实现了最先进的性能,在无文档和文档辅助场景中分别超过了 GPT4o 7.0% 和 5.8%。代码和数据将公开 ...
处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种称为事后经验重放的新技术,它允许从稀疏和二元的奖励中进行样本有效的学习,从而避免了复杂的奖励工程的需要。它可以与任意离策略强化学习算法相结合,并且可以被视为隐式课程的一种形式。我们展示了我们使用机械臂操纵物体的任务的方法。特别是,我们对三种不同的任务进行了实验:推动、滑动和拾放,在每种情况下仅使用二进制奖励来指示任务是否完成。我们的消融研究表明,事后体验重播是使在这些具有挑战性的环境中进行训练成为可能的关键因素。我们证明,我们在物理模拟上训练的策略可以部署在物理机器人上并成功完成任务 ...
大型语言模型 (LLM) 在单轮文本到 SQL 任务上表现出了卓越的性能,但现实世界的数据库应用程序主要需要多轮交互来处理不明确的查询、执行错误和不断变化的用户需求。现有的多轮基准测试将对话历史视为静态上下文或限制对只读操作的评估,从而无法反映生产级数据库助手的挑战。我们引入了 BIRD-INTERACT,这是一个通过以下方式恢复这种真实性的基准:(1)一个综合交互环境,将每个数据库与分层知识库、元数据文件和功能驱动的用户模拟器耦合起来,使模型能够在没有人工监督的情况下征求澄清、检索知识并从错误中恢复; (2) 两种评估设置,包括预定义的对话协议 (c-Interact) 和开放式代理设置 (a-Interact),其中模型自主决定何时查询用户模拟器或探索环境; (3) 一个具有挑战性的任务套件,涵盖商业智能和操作用例的完整 CRUD 范围,并由可执行测试用例保护。每个任务都有不明确的和需要动态交互的后续子任务。该套件包括用于全面性能评估的 BIRD-INTERACT-FULL(600 个任务,最多 11,796 次交互)和用于详细行为分析和快速方法开发的 BIRD-INTERACT-LITE(300 个任务,带有简化的数据库)。我们的实证结果凸显了 BIRD-INTERACT 的困难:GPT-5 在 c-Interact 中仅完成了 8.67% 的任务,在 a-Interact 中完成了 17.00%。通过内存移植和交互测试时间缩放进行的分析验证了有效交互对于复杂、动态文本到 SQL 任务的重要性 ...
基于执行的反馈(例如单元测试)通过测试时间缩放(TTS)和强化学习(RL)广泛用于编码代理的开发。这种范式需要可扩展且可靠的单元测试用例集合来提供准确的反馈,而得到的反馈通常是稀疏的,并且无法有效地区分既成功又不成功的轨迹。相比之下,来自奖励模型的无执行反馈可以提供更细粒度的信号,而不依赖于单元测试用例。尽管有这种潜力,但对于现实软件工程(SWE)代理的无执行反馈仍然没有得到充分探索。然而,为了开发在 TTS 和 RL 中有效的通用奖励模型,我们观察到两个具有几乎相同 TTS 性能的验证者在 RL 中却可能产生截然不同的结果。直观上,TTS 主要反映了模型选择最佳轨迹的能力,但这种能力并不一定能推广到 RL。为了解决这个限制,我们确定了对于 RL 训练至关重要的两个额外方面:分类准确性和校准。然后,我们进行全面的对照实验,以研究如何训练在这些指标上表现良好的稳健奖励模型。我们特别分析了训练数据规模、策略混合和数据源构成等各种因素的影响。在这些研究的指导下,我们引入了 SWE-RM,这是一种准确且稳健的奖励模型,采用专家混合架构,总参数为 30B,并且在推理过程中激活了 3B。 SWE-RM 显着提高了 SWE 代理的 TTS 和 RL 性能。例如,它在使用 TTS 的 SWE-Bench Verified 上将 Qwen3-Coder-Flash 的准确率从 51.6% 提高到 62.0%,将 Qwen3-Coder-Max 从 67.0% 提高到 74.6%,在开源模型中实现了新的最先进性能 ...