我们引入了Longcat-Flash,这是专为计算效率和先进代理功能设计的560亿参数混合物(MOE)语言模型。由于需要可扩展效率,Longcat-Flash采用了两个新颖的设计:(a)零委托专家,这可以使动态计算预算分配并激活18.6B-31 ...

0 0 0 0 2026/01/05 arXiv:2509.01322v2 mlp

标记化是大型语言模型 (LLM) 的基本组成部分,但其对模型扩展和性能的影响尚未得到充分探讨。在本文中,我们介绍了 Over-Tokenized Transformers,这是一种新颖的框架,可以解耦输入和输出词汇以提高语言建模性能。具体来说,我们的方法扩大了输入词汇表以利用多克 Token 。通过大量的实验,我们发现了输入词汇量大小和训练损失之间的对数线性关系,证明无论模型大小如何,较大的输入词汇量都会持续增强模型性能。使用较大的输入词汇量,我们无需额外成本即可实现与双倍大小的基线相当的性能。我们的研究结果强调了标记化在缩放法则中的重要性,并为标记器设计提供了实用的见解,为更高效、更强大的 LLM 铺平了道路 ...

0 0 0 0 2025/11/24 arXiv:2501.16975v2 mlp

我们推出了 Motif-2-12.7B,这是一种新的开放权重基础模型,通过将架构创新与系统级优化相结合,推动大型语言模型的效率前沿。 Motif-2-12.7B 专为在计算预算有限的情况下实现可扩展的语言理解和强大的指令泛化而设计,它以 Motif-2.6B 为基础,集成了分组差分注意 (GDA),通过解开信号和噪声控制注意路径来提高表示效率。该模型使用课程驱动的数据调度程序对跨越不同语言、数学、科学和编程领域的 5.5 万亿个 Token 进行了预训练,该调度程序逐渐改变数据构成比例。该训练系统利用 MuonClip 优化器以及定制的高性能内核,包括融合 PolyNorm 激活和并行 Muon 算法,在大规模分布式环境中产生显着的吞吐量和内存效率增益。后期训练采用三阶段监督微调流程,连续增强一般指令的依从性、构图理解和语言准确性。 Motif-2-12.7B 在不同的基准测试中展示了具有竞争力的性能,表明深思熟虑的架构扩展和优化的训练设计可以与更大模型的功能相媲美 ...

0 0 0 0 2025/11/19 arXiv:2511.07464v1 mlp

我们提出 Ming-Flash-Omni,它是 Ming-Omni 的升级版本,建立在 Ling-Flash-2.0 的稀疏专家混合 (MoE) 变体之上,总参数为 1000 亿个,其中每个 Token 只有 61 亿个活跃参数 ...

0 0 0 0 2025/10/31 arXiv:2510.24821v1 mlp

模型合并是一种有效的训练后策略,用于集成来自共享基础模型的多个微调检查点的知识。现有方法在参数空间中运行,结合任务向量来减轻冲突,但仍然受到参数不一致的限制。我们提出了功能双锚(FDA),这是一个对输入表示空间进行建模的框架 ...

0 0 0 0 2025/10/30 arXiv:2510.21223v1 mlp

基础模型的最新进展凸显了多阶段训练的显着优势,特别强调训练中期作为连接训练前和训练后的重要阶段的出现。中期训练的特点是使用中间数据和计算资源,系统地增强数学、编码、推理和长上下文扩展等特定能力,同时保持基础能力。这项调查提供了大型语言模型 (LLM) 中期训练的正式定义,并研究了包含数据管理、训练策略和模型架构优化的优化框架 ...

0 0 0 0 2025/10/30 arXiv:2510.23081v1 mlp

训练大型推理模型的主要范例是从使用大量数据的下一个标记预测损失进行预训练开始。强化学习虽然在扩展推理方面功能强大,但仅在训练后的最后阶段引入,之后进行监督微调。虽然占主导地位,但这是否是最佳的训练方式?在本文中,我们提出了 RLP,一种信息驱动的强化预训练目标,它将强化学习的核心精神——探索——带入了预训练的最后阶段 ...

0 0 0 0 2025/10/09 arXiv:2510.01265v1 mlp

计算资源的指数扩展与高质量文本数据的有限增长之间日益扩大的差距现在限制了大型语言模型(LLM)的传统扩展方法。为了应对这一挑战,我们引入了预训练数据强化学习 (RLPT),这是一种用于优化 LLM 的新训练时间扩展范例。与之前主要通过监督学习来扩展训练的方法相比,RLPT 使策略能够自主探索有意义的轨迹,从预训练数据中学习,并通过强化学习 (RL) 提高其能力 ...

0 0 0 0 2025/10/09 arXiv:2509.19249v2 mlp

提高 LLM 推理能力的普遍范式围绕高质量、推理密集型数据的后期培训。虽然新兴文献表明推理数据在训练中期也越来越多地被纳入——这种做法相对更专有且不太公开特征——但此类数据在预训练中的作用仍不清楚。特别是,由于大多数前沿模型中预训练语料库的不透明性,在训练前和/或训练后不同阶段引入的推理数据的影响在科学文献中报道相对较少 ...

0 0 0 0 2025/10/09 arXiv:2510.03264v1 mlp

训练数据在大型语言模型 (LLM) 扩展中发挥着至关重要的作用,但高质量数据的供应有限。合成数据技术提供了绕过这些限制的潜在途径。我们使用统一的协议和缩放法则进行大规模实证研究(> 1000 个 LLM ,> 100k GPU 小时),比较自然网络数据、不同的合成类型(改写文本、生成的教科书)以及自然数据和合成数据的混合 ...

0 0 0 0 2025/10/09 arXiv:2510.01631v1 mlp