随着大型语言模型 (LLM) 的扩展,准确性会提高,但解码的自回归 (AR) 性质会增加延迟,因为每个 Token 都需要串行前向传递。推测解码通过使用快速起草者提出多 Token 草案来解决这个问题,然后由目标模型并行验证。然而,许多部署仍然依赖 AR 绘图器,其中顺序传递限制了挂钟增益。我们重新审视起草阶段并提出 DiffuSpec,这是一个免训练的嵌入式框架,它使用预训练的扩散语言模型 (DLM) 在一次前向传递中生成多 Token 草案,同时保持与标准 AR 验证器的兼容性。由于 DLM 草稿是在双向条件下生成的,因此并行的每个位置候选者形成一个 Token 网格,其中每个位置处的局部最高概率 Token 不需要形成因果的从左到右路径。此外,DLM 绘图需要预先指定绘图长度,从而导致速度与质量之间的权衡。为了应对这些挑战,我们引入了两个实用的组件:(i)在该网格上进行因果一致性路径搜索(CPS),提取与 AR 验证一致的从左到右的路径; (ii) 自适应草稿长度 (ADL) 控制器,根据最近的接受反馈和实现的生成长度调整下一个提案大小。在各个基准测试中,DiffuSpec 实现了高达 3 倍的挂钟加速,将基于扩散的绘图建立为用于推测解码的自回归绘图器的强大替代方案 ...
多智能体强化学习(MARL)通常依赖于\emph{参数共享(PS)}来有效扩展。然而,纯粹的共享策略可能会抑制每个代理的独特专业化,从而降低异构环境中的整体性能。我们提出了 \textbf{低阶代理特定适应(LoRASA)},这是一种新颖的方法,它将每个代理的策略视为从共享主干进行微调的专门“任务”。受参数高效传输方法的启发,LoRASA 将小型、低秩的适应矩阵附加到共享策略的每一层,自然地引入\emph{参数空间稀疏性},从而促进专业化和可扩展性。我们在具有挑战性的基准上评估 LoRASA,包括星际争霸多智能体挑战赛 (SMAC) 和多智能体 MuJoCo (MAMuJoCo),并在广泛使用的算法(例如 MAPPO 和 A2PO)上实现它。在不同的任务中,LoRASA 匹配或优于现有基线 \emph{同时减少内存和计算开销}。对适配器等级、布局和时序的消融研究验证了该方法的灵活性和效率。我们的结果表明 LoRASA 有潜力为 MARL 策略参数化建立新规范:将协调的共享基础与针对个体专业化的低级代理特定细化相结合 ...
强化学习(RL)已成为培训大语言模型(LLM)的主要范式,尤其是用于推理任务的范式。 LLM的有效RL需要大量的并行化,并迫切需要有效的训练系统。在批处理设置中,大多数现有的大型LLM大型RL系统都是同步的,交替的生成和培训,在该设置中,每个培训批次中的汇总都是由同一模型生成的 ...
具有可验证奖励的强化学习(RLVR)已成为增强大型语言模型推理能力的主要方法。然而,它面临着基本的计算和内存不对称:部署生成是令人尴尬的并行性和内存消耗,而策略更新是通信密集型和内存密集型。为了解决这个问题,我们引入了 PODS(带有下采样的策略优化),它通过仅对策略性选择的推出子集进行训练,将推出生成与策略更新分离,在保持学习质量的同时大幅降低更新成本。我们提出了一个有原则的子集选择标准,即最大方差下采样,它可以最大化奖励多样性,并提供有效的 $O(n\log n)$ 实现。根据经验,在我们测试的不同推理基准和硬件配置中,使用 PODS 的组相对策略优化 (GRPO) 可以实现普通 GRPO 的峰值测试精度,速度至少快 $\mathbf{1.7\times}$ ...
由于训练和推理策略之间的数值不匹配,大型语言模型 (LLM) 的强化学习 (RL) 微调经常会出现不稳定的情况。虽然之前的工作试图通过算法修正或工程调整来缓解这个问题,但我们表明其根本原因在于浮点精度本身。广泛采用的 BF16 尽管具有较大的动态范围,但会引入较大的舍入误差,从而破坏了训练和推理之间的一致性。在这项工作中,我们证明了简单地恢复到 \textbf{FP16} 可以有效地消除这种不匹配。更改很简单,只需更改几行代码即可得到现代框架的全面支持,并且无需修改模型架构或学习算法。我们的结果表明,统一使用 FP16 可以在不同的任务、算法和框架中产生更稳定的优化、更快的收敛以及更强的性能。我们希望这些发现能够激发人们对强化学习微调中的精度权衡进行更广泛的重新考虑 ...
可验证奖励的强化学习(RLVR)在复杂推理中推动了大型语言模型的发展,但其可扩展性常常受到训练瓶颈的阻碍,随着策略熵的崩溃,性能会趋于稳定,这表明探索的损失。以前的方法通常通过维持高策略熵来解决这个问题,但控制有意义的探索的精确机制仍未得到充分探索。我们的分析表明,不加选择地关注熵可能会放大不相关的标记并破坏训练的稳定性。本文研究了 RLVR 中的探索动态,并确定了一个关键问题:逐渐消除有价值的低概率探索性标记,我们将其称为 \textbf{\textit{推理火花}}。我们发现,虽然预训练模型丰富,但由于过度惩罚,这些火花在 RLVR 过程中被系统性地熄灭,导致探索的退化。为了解决这个问题,我们引入了低概率正则化(Lp-Reg)。其核心机制将策略规范为启发式代理分配。该代理是通过过滤掉假定的噪声标记并重新规范化剩余候选者的分布来构建的。结果是一个噪音较小的代理,其中 \textit{推理火花} 的概率被放大,然后作为软正则化目标来保护这些有价值的 Token 不被 KL 散度消除。实验表明,Lp-Reg 可实现稳定的同策略 RL,在 3,000 美元的训练步骤和 81,204 美元的 GPU 小时上维持连续扩展,而基线熵控制方法在这方面崩溃了。这种持续的探索带来了最先进的性能,在五个数学基准上实现了 $60.17\%$ 的平均准确度,比之前的方法提高了 $2.66\%$。代码可从此 https URL 获取 ...
随着大型语言模型(LLM)变得越来越强大,自回归生成的顺序性质造成了限制实际部署的基本吞吐量瓶颈。虽然多 Token 预测 (MTP) 在模型训练效率和性能方面已展现出显着的优势,但其推理加速的内在潜力在很大程度上仍未得到开发。本文介绍了 FastMTP,这是一种简单而有效的方法,通过将 MTP 训练与其推理模式结合起来,提高多步草稿质量,从而显着增强推测解码性能 ...
事实证明,加强学习(RL)有效地增强了大语言模型(LLMS)的推理能力。一种广泛采用的方法是小组相对政策优化(GRPO),在训练DeepSeek-R1方面显示出强大的经验结果。但是,当组中的所有响应不正确时,GRPO无法更新策略(i ...
强化学习(RL)方法以组相对策略优化(GRPO)及其变体为例,在开发推理模型中起着核心作用。但是,这些方法通常会遇到关键的过度自信问题,从而阻止他们实现自我意识的推理模型。在这项研究中,我们提出了一种简单而有效的置信组序列策略梯度方法,称为C $^2 $ GSPG,该方法同时增强了推理性能的同时抑制过度启发 ...
我们提出了Jet-Nemotron,这是一个新的混合体系结构语言模型,它匹配或超过了领先的全注意模型的准确性,同时显着改善了发电的吞吐量。 Jet Nemotron是使用后神经结构搜索(Postnas)开发的,这是一种新型的神经体系结构探索管道,可实现有效的模型设计。与先前的方法不同,PostNAS始于预训练的全注意模型,并冻结其MLP权重,从而有效地探索了注意力阻滞设计 ...