在本文中,我们研究了代码集成推理,其中模型在必要时生成代码,并通过代码解释器执行反馈来整合反馈。为了获得此功能,模型必须学习何时以及如何有效使用外部代码工具,该工具由工具增强的加固学习(RL)通过交互式学习支持。尽管有好处,但具有工具增强的RL仍可能会遭受学习动态中潜在的不稳定 ...
寻求信息需要迭代证据收集和反思性推理,但是大型语言模型(LLMS)仍在开放式问题回答中与之抗争。现有的方法依赖于基于Wikipedia的语料库和检索环境的静态提示规则或培训,从而限制了对现实世界中的Web环境的适应性,在这种情况下,歧义性,证据和噪音相互冲突是普遍的。这些受到限制的培训设置阻碍了LLM的学习,而不是动态地决定何时何地搜索,以及如何根据信息需求调整搜索深度和频率 ...
通过可验证的奖励(RLVR)的强化学习是培训语言模型(LMS)的一种有前途的方法,这些方法是针对引发出现的长长思想链(COTS)的推理任务的一种有前途的方法。与受监督的学习不同,它通过策略梯度同时使用正确和不正确的样本更新模型。为了更好地理解其机制,我们将学习信号分解为加强正确的响应,并分别惩罚不正确的响应,分别称为正和负样品增强(PSR和NSR) ...
强化学习算法是将大语言模型与人类偏好相结合并增强其推理能力的基础。但是,由于辅助模型引起的损失,当前的增强学习算法通常会遭受训练不稳定性的损失。在这项工作中,我们提出了具有最佳奖励基线(OPO)(一种新颖而简化的强化学习算法,旨在应对这些挑战的新颖而简化的增强算法) ...
大型语言模型(LLMS)在输入提示(问题)之间表现出不同水平的信心:有些导致语义上相似的答案一致,而另一些则产生了不同或矛盾的输出。这种变化反映了LLM对输入提示的不确定性,这是模型如何理解给定问题的信号。但是,香草小组相对策略优化(GRPO)在策略更新过程中平均处理所有提示,忽略了有关模型知识边界的这些重要信息 ...
DeepSeek-R1的成功强调了增强学习(RL)在增强大语言模型(LLMS)的推理能力方面的重要作用。在这项工作中,我们介绍了SkyWork-OR1,这是长期链(COT)模型的有效且可扩展的RL实现。在DeepSeek-R1-Distill模型系列的基础上,我们的RL方法可实现显着的性能提高,从而提高了AIME24,AIME25和LiveCodeBench的平均精度,从57中提高了 ...
大型语言模型(LLM)在各种软件工程任务中表现出强大的能力,例如代码完成,错误修复和文档生成 ...
增强学习已被证明可以改善大语言模型的性能。但是,诸如RLHF或RLAIF之类的传统方法将问题视为单步。随着焦点转向更复杂的推理和代理任务,语言模型必须在生成解决方案之前采取多个文本生成,推理和环境互动的步骤 ...
以推理为中心的语言模型的最新进展突出了增强学习(RL),作为将模型与可验证奖励保持一致的有前途的方法。但是,RL是真正扩展模型的推理功能还是仅仅放大基本模型分布中已经潜在的高回报输出,以及是否不断扩大RL计算会可靠地导致推理性能提高,这仍然是有争议的。在这项工作中,我们通过证明延长的RL(PRORL)培训可以发现基本模型无法访问的新型推理策略,即使在广泛的采样中也无法访问,我们可以挑战普遍的假设 ...
内存是基于大型语言模型(LLMS)代理的基础AI系统的基本组成部分。虽然先前的调查专注于LLMS的内存应用,但它们经常忽略内存动态的原子操作。在此调查中,我们首先将内存表示形式分为参数,上下文结构化和上下文非结构化,然后引入六个基本内存操作:合并,更新,索引,遗忘,检索和压缩 ...