我们引入了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置来验证 SBP,并从头开始在最多 1T Token 上预训练 3B 参数模型 ...
大型语言模型(LLM)拥有广泛的世界知识和强大的通用推理能力,但它们很难从标准机器学习(ML)任务的许多上下文示例中学习,即纯粹通过上下文学习(ICL)而不是梯度下降来利用多镜头演示。我们推出 MachineLearningLM,这是一种便携式持续预训练框架,为通用 LLM 提供强大的上下文 ML 功能,同时保留其一般知识和推理以适应更广泛的聊天工作流程。我们的预训练程序从数百万个结构因果模型 (SCM) 中综合了 ML 任务,涵盖的镜头数高达 1,024 ...
本文通过使用思维轨迹来增强现有文本数据来提高大语模型(LLM)培训的数据效率(LLM)培训的数据效率。训练前LLM的计算以前所未有的速度增长,而高质量数据的可用性仍然有限。因此,最大化可用数据的实用性构成了重大的研究挑战 ...
模型合并已成为增强大型语言模型的一种有希望的技术,尽管它在大规模的预训练中的应用仍然相对尚未探索。在本文中,我们对训练过程中的模型合并技术进行了全面研究。通过对量表和混合物(MOE)的广泛实验,范围从数百万到1000亿多个参数,我们证明,与持续学习率进行训练的检查点不仅可以实现显着的绩效提高,而且还可以准确预测退火行为 ...
Am-Deepseek-R1启动是一个大规模数据集,具有一般推理任务的思维痕迹,由高质量和挑战性的推理问题组成。这些问题是从多种开源数据集中收集的,受到语义重复数据删除和细致的清洁,以消除测试集污染。数据集中的所有响应都从推理模型(主要是DeepSeek-R1)中提取,并具有严格的验证程序 ...