我们引入 OLMoE,这是一种完全开放、最先进的语言模型,利用稀疏专家混合 (MoE)。 OLMoE-1B-7B 有 70 亿个 (B) 参数,但每个输入 Token 仅使用 1B。我们在 5 万亿个 Token 上对其进行预训练,并进一步对其进行调整以创建 OLMoE-1B-7B-Instruct ...
对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损失会在训练中引入不可忽略的干扰梯度,从而损害模型性能。为了控制负载平衡,同时在训练过程中不产生不需要的梯度,我们提出了无损平衡,其特点是辅助无损负载平衡策略 ...
大型语言模型(LLM)的一般能力高度依赖于广泛的预训练数据集的组成和选择,这些数据集被多家机构视为商业机密。为了缓解这个问题,我们开源了普遍适用的数据处理流程的细节,并通过引入有竞争力的 LLM 基线来验证其有效性和潜力。具体来说,数据处理管道包括广泛的收集以扩大规模和重新加权以提高质量 ...
将代码包含在预训练数据混合物中,即使对于不是专门为代码设计的模型,也已成为 LLM 预训练中的常见做法。虽然从业者之间有一个共识,即代码数据在一般 LLM 的表现中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却很有限。在这项工作中,我们系统地研究了代码数据对总体性能的影响 ...
我们发现,神经语言模型的交叉熵损失曲线在经验上遵循学习率(LR)在训练步骤($s$)上退火的缩放法则:$$L(s) = L_0 + A\cdot S_1^{ -\alpha} - C\cdot S_2$$ 其中 $S_1$ 是前向区域,$S_2$ 是学习率退火区域。该公式考虑了两个因素:(1)定义为典型缩放定律的前向缩放,以及(2)LR 退火带来的额外损耗下降。因此,这个公式可以描述每一步的完整损失曲线,而不是训练结束时的单个损失点 ...
高质量的数据对于大型语言模型的预训练性能至关重要。不幸的是,现有的质量过滤方法依赖于已知的高质量数据集作为参考,这可能会引入潜在的偏差并损害多样性。在本文中,我们提出了 ScalingFilter,这是一种基于在相同数据上训练的两种语言模型之间的困惑度差异来评估文本质量的新方法,从而消除了过滤过程中参考数据集的影响 ...
本文介绍了 Aquila2 系列,该系列包含参数大小为 7、34 和 700 亿的多种双语模型。这些模型基于名为 HeuriMentor (HM) 的创新框架进行训练,该框架提供对模型收敛的实时洞察并增强训练过程和数据管理。 HM系统由自适应训练引擎(ATE)、训练状态监视器(TSM)和数据管理单元(DMU)组成,可以精确监控模型的训练进度,并有效优化数据分布,从而提高训练效果 ...
模型从小宽度到大宽度的稳健且有效的缩放通常需要精确调整许多算法和架构细节,例如参数化和优化器选择。在这项工作中,我们通过研究先前工作中关于参数和数据之间对齐的关键假设,提出了参数化的新视角,并在较弱的假设和更广泛的优化器集下得出新的理论结果。我们广泛的实证调查包括数以万计的模型,这些模型使用三个优化器、四个参数化、几个对齐假设、十多个学习率以及十四个模型大小(最多 26 个)的所有组合进行训练 ...
复杂推理是大型语言模型 (LLM) 所展现出的令人印象深刻的能力。大多数 LLM 都擅长演绎推理,例如思维链提示或使用迭代工具逐步解决具有挑战性的任务。在本文中,我们希望重点评估和教授 LLM 进行归纳推理,即 LLM 应该通过观察示例或顺序转换来推断潜在规则 ...
近年来,大型语言模型(LLM)的兴起刺激了对即插即用人工智能系统的需求不断增长。在各种人工智能技术中,即时工程尤为重要。然而,由于陡峭的学习曲线和大量的时间投入,用户在编写提示时经常面临挑战,并且现有的自动提示工程(APE)模型可能难以使用 ...