推理时间缩放可以增强大语言模型(LLMS)的推理能力(LLMS),这些问题对逐步解决问题的复杂问题。尽管延长产生的刮擦板已被证明对数学任务有效,但这种方法对其他任务的广泛影响仍然不太清楚。在这项工作中,我们调查了跨九个最先进模型和八个具有挑战性的任务的缩放方法的好处和局限性,包括数学和STEM推理,日历计划,NP-HARD问题,导航和空间推理 ...
大型语言模型(LLM)在复杂的推理中表现出巨大的希望,并具有可验证的奖励(RLVR)是一个关键增强策略。但是,一个普遍的问题是``浅表自我反省'',其中模型无法牢固地验证自己的输出。我们引入了Rise(通过自我验证加强推理),这是一个旨在解决此问题的新型在线RL框架 ...
最近的研究表明,测试时间计算缩放有效地改善了小语言模型(SLM)的性能。但是,先前的研究主要检查了测试时间计算缩放量表,以较大的模型作为验证者,而SLMS的自我验证却没有被抛弃。在这项工作中,我们研究了SLM是否可以可靠地自我验证其在测试时间缩放下的输出 ...
大型推理模型(LRMS)也具有自我校正的能力,即使他们在推理道路上犯错误。但是,我们的研究表明,当推理过程以短暂但糟糕的开端开始时,模型很难恢复。我们将此现象称为“前缀优势陷阱” ...
大型语言模型(LLMS)表现出重要的推理能力,尤其是通过长链(COT)过程,可以通过增强学习(RL)引起。但是,长时间的婴儿床推理提出了局限性,主要是由于内省过多而导致的详细输出。这些LLMS中的推理过程通常遵循试验方法,而不是系统的,逻辑上的推论 ...
大型语言模型(LLM)的AI代理最近通过使用动态推理(一种自适应,多步骤过程)来展示了令人印象深刻的多功能性,该过程与外部工具协调。从静态的,单转的推断转变为代理,多转弯工作流程扩大了任务的概括和行为灵活性,但也引起了人们对系统级成本,效率和可持续性的严重关注。本文介绍了对AI代理的第一个全面的系统级分析,介绍了其资源使用情况,延迟行为,能源消耗以及范围内的数据中心范围的功耗需求,跨不同的代理设计和测试时间扩展策略 ...
强化学习(RL)已成为增强大语言模型(LLMS)推理能力(LLM)的基石,最近的创新(例如小组相对政策优化(GRPO))表现出非凡的有效性。在这项研究中,我们在RL培训中确定了一个关键但毫无疑问的问题:由于其较大的梯度幅度,低概率 Token 会影响模型更新。这种主导地位阻碍了有效学习高概率 Token ,其梯度对于LLMS的性能至关重要,但受到了极大的抑制 ...
大型推理模型(LRMS)在复杂的问题解决方面表现出了令人印象深刻的能力,但它们的内部推理机制仍然很少了解。在本文中,我们从信息理论的角度研究了LRM的推理轨迹。通过跟踪中间表示和正确答案之间如何在LRM推理过程中演变的相互信息(MI),我们观察到一个有趣的MI峰现象:在LRM的推理过程中,特定生成步骤处的MI在特定生成步骤中表现出突然而显着的增加 ...
最近的体现药物主要是基于强化学习(RL)或大语言模型(LLMS)构建的。其中,RL代理可以有效地部署,但仅执行很少的任务。相比之下,巨型LLM代理(通常超过1000b参数)具有强大的概括,同时要求巨大的计算资源 ...
大型语言模型中的先进推理在具有挑战性的任务上取得了出色的性能,但是普遍的长篇文本推理范式面临着临界限制:二次计算缩放,序列长度,序列长度,由最大上下文边界限制的推理以及超出预先训练上下文窗口以外的绩效降低。现有方法主要压缩推理链,而无需解决基本缩放问题。为了克服这些挑战,我们引入了Inftythink,这种范式将单片推理转化为中间摘要的迭代过程 ...