大型语言模型(LLM)在复杂的推理任务上表现出色,但在计算上保持昂贵,从而限制了其实际部署。为了解决这个问题,最近的作品集中在使用教师LLMS的Theark(COT)痕迹将推理能力提炼成较小的语言模型(SLM)。但是,这种方法在需要罕见的事实知识或精确计算的情况下挣扎,在这种情况下,由于能力有限,SLM经常会幻觉 ...
尽管增强学习(RL)在增强大语言模型(LLM)方面取得了巨大的成功,但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性,培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中,我们介绍了Webagent-R1,这是一个简单而有效的端到端多转弯RL RL框架,用于培训网络代理 ...
高效的多跳跃推理需要基于大语言模型(LLM)的代理,才能迭代地获取高价值的外部知识。先前的工作探索了加强学习(RL)来培训LLMS以执行基于搜索的文档检索,从而取得了显着的改进,从而取得了显着的改进,但由于仅来自全球信号的稀疏奖励而产生的复杂,多跳的质量质量质量检查表现不佳。为了解决现有研究中的这一差距,我们介绍了Stepearch,这是一个搜索LLMS的框架,该框架接受了逐步近端策略优化方法 ...
我们介绍了梯子(通过自主难度驱动的示例递归学习),这是一个框架,使LLMS能够通过自我引导的学习自主提高其解决问题的能力。通过递归生成和解决复杂问题的更简单变体,梯子使模型能够通过强化学习如何解决更严重的问题来逐步学习。这种自我改进过程以可验证的奖励信号为指导,从而使模型可以评估其解决方案 ...
最近,大型语言模型(LLMS)通过大规模增强学习(RL)表现出了显着的推理能力。但是,利用RL算法来授权LLMS中有效的多工具协作推理能力仍然是一个悬而未决的挑战。在本文中,我们介绍了Tool-Star,这是一种基于RL的框架,旨在使LLMS在逐步推理期间自主调用多个外部工具 ...
事后观察经验重播(她)加速了对环境的范围内强化学习算法,这些算法通过修改事后事件后的目标是在情节中达到的某种状态,从而散发出稀疏的奖励。由于事后对观察到的目标的修改违反了上政策算法的假设,因此她通常不适用于上政策算法。在这里,我们表明她可以在自定义捕食者捕食环境中进行测试时,可以极大地加速近端政策优化(PPO),这是一种在政策的增强学习算法 ...
高效的多跳跃推理需要基于大语言模型(LLM)的代理,才能迭代地获取高价值的外部知识。先前的工作探索了加强学习(RL)来培训LLMS以执行基于搜索的文档检索,从而取得了显着的改进,从而取得了显着的改进,但由于仅来自全球信号的稀疏奖励而产生的复杂,多跳的质量质量质量检查表现不佳。为了解决现有研究中的这一差距,我们介绍了Stepearch,这是一个搜索LLMS的框架,该框架接受了逐步近端策略优化方法 ...
诸如OpenAI O1和DeepSeek-R1之类的大型推理模型在推理领域取得了出色的性能。他们培训的一个关键组成部分是将可验证的奖励纳入加固学习(RL)。但是,现有的奖励基准并未评估基于参考的奖励系统,使研究人员对RL中使用的验证者的准确性有限 ...
评估大语言模型(LLM)的推理能力是具有挑战性的。现有的基准通常取决于静态数据集,这些数据集容易受到数据污染的影响,并且可能会随着时间的流逝而变得饱和,或者是将推理与其他能力混为一谈的二进制实时反馈。作为最突出的动态基准,聊天机器人体育馆在现实世界中评估了开放式问题,但缺乏评估特定推理能力的粒度 ...
社会互动中的推理和战略行为是智力的标志。这种推理形式比静态设置中的孤立计划或推理任务要复杂得多(例如 ...