训练大型推理模型的主要范例是从使用大量数据的下一个标记预测损失进行预训练开始。强化学习虽然在扩展推理方面功能强大,但仅在训练后的最后阶段引入,之后进行监督微调。虽然占主导地位,但这是否是最佳的训练方式?在本文中,我们提出了 RLP,一种信息驱动的强化预训练目标,它将强化学习的核心精神——探索——带入了预训练的最后阶段 ...
计算资源的指数扩展与高质量文本数据的有限增长之间日益扩大的差距现在限制了大型语言模型(LLM)的传统扩展方法。为了应对这一挑战,我们引入了预训练数据强化学习 (RLPT),这是一种用于优化 LLM 的新训练时间扩展范例。与之前主要通过监督学习来扩展训练的方法相比,RLPT 使策略能够自主探索有意义的轨迹,从预训练数据中学习,并通过强化学习 (RL) 提高其能力 ...
提高 LLM 推理能力的普遍范式围绕高质量、推理密集型数据的后期培训。虽然新兴文献表明推理数据在训练中期也越来越多地被纳入——这种做法相对更专有且不太公开特征——但此类数据在预训练中的作用仍不清楚。特别是,由于大多数前沿模型中预训练语料库的不透明性,在训练前和/或训练后不同阶段引入的推理数据的影响在科学文献中报道相对较少 ...
训练数据在大型语言模型 (LLM) 扩展中发挥着至关重要的作用,但高质量数据的供应有限。合成数据技术提供了绕过这些限制的潜在途径。我们使用统一的协议和缩放法则进行大规模实证研究(> 1000 个 LLM ,> 100k GPU 小时),比较自然网络数据、不同的合成类型(改写文本、生成的教科书)以及自然数据和合成数据的混合 ...
我们引入了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置来验证 SBP,并从头开始在最多 1T Token 上预训练 3B 参数模型 ...
大型语言模型(LLM)拥有广泛的世界知识和强大的通用推理能力,但它们很难从标准机器学习(ML)任务的许多上下文示例中学习,即纯粹通过上下文学习(ICL)而不是梯度下降来利用多镜头演示。我们推出 MachineLearningLM,这是一种便携式持续预训练框架,为通用 LLM 提供强大的上下文 ML 功能,同时保留其一般知识和推理以适应更广泛的聊天工作流程。我们的预训练程序从数百万个结构因果模型 (SCM) 中综合了 ML 任务,涵盖的镜头数高达 1,024 ...
本文通过使用思维轨迹来增强现有文本数据来提高大语模型(LLM)培训的数据效率(LLM)培训的数据效率。训练前LLM的计算以前所未有的速度增长,而高质量数据的可用性仍然有限。因此,最大化可用数据的实用性构成了重大的研究挑战 ...
模型合并已成为增强大型语言模型的一种有希望的技术,尽管它在大规模的预训练中的应用仍然相对尚未探索。在本文中,我们对训练过程中的模型合并技术进行了全面研究。通过对量表和混合物(MOE)的广泛实验,范围从数百万到1000亿多个参数,我们证明,与持续学习率进行训练的检查点不仅可以实现显着的绩效提高,而且还可以准确预测退火行为 ...
Am-Deepseek-R1启动是一个大规模数据集,具有一般推理任务的思维痕迹,由高质量和挑战性的推理问题组成。这些问题是从多种开源数据集中收集的,受到语义重复数据删除和细致的清洁,以消除测试集污染。数据集中的所有响应都从推理模型(主要是DeepSeek-R1)中提取,并具有严格的验证程序 ...