GPT-4o 代表了通过语音与大型语言模型 (LLM) 进行实时交互的一个重要里程碑,其卓越的低延迟和高流畅性不仅引起了人们的关注,而且激发了该领域的研究兴趣。这种实时语音交互在需要快速反馈和即时响应的场景中尤其有价值,可以极大地提升用户体验。然而,针对实时大型语音语言模型(尤其是中文)的研究明显缺乏。在这项工作中,我们提出了 KE-Omni,这是一个基于 Ke-SpeechChat 构建的无缝大型语音语言模型,Ke-SpeechChat 是一个包含 700 万条中英文对话、42,002 名说话人、总计超过 60,000 小时的大规模高质量合成语音交互数据集,这对该领域的研究和开发进步做出了重大贡献。可以通过 \url{此 https URL} 访问演示 ...
确定有效的数据混合是大型语言模型 (LLM) 预训练的关键因素,其中模型必须平衡一般能力与数学和代码等困难任务的熟练程度。然而,确定最佳混合物仍然是一个开放的挑战,因为现有方法要么依赖于不可靠的小规模代理实验,要么需要极其昂贵的大规模探索。为了解决这个问题,我们提出了从训练混合中解耦搜索(DeMix),这是一种利用模型合并来预测最佳数据比率的新颖框架。 Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging.这种范例将搜索与训练成本解耦,能够在没有额外训练负担的情况下评估无限采样的混合物,从而通过更多的搜索试验促进更好的混合物发现。大量实验表明,DeMix 打破了充分性、准确性和效率之间的权衡,以更低的搜索成本获得了具有更高基准性能的最佳混合。 Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at this https URL. ...
我们推出了 Ministral 3 系列,这是一系列参数高效的密集语言模型,专为计算和内存受限的应用程序而设计,提供三种模型大小:3B、8B 和 14B 参数。对于每种模型大小,我们发布了三种变体:用于通用用途的预训练基础模型、经过微调的指令以及用于解决复杂问题的推理模型。此外,我们还介绍了通过级联蒸馏(Cascade Distillation)、迭代修剪和蒸馏技术持续训练来推导 Ministral 3 模型的方法。每个模型都具有图像理解功能,均在 Apache 2.0 许可下 ...
我们推出 MiMo-V2-Flash,这是一种专家混合 (MoE) 模型,具有 309B 总参数和 15B 活动参数,专为快速、强大的推理和代理功能而设计。 MiMo-V2-Flash采用混合注意力架构,将滑动窗口注意力(SWA)与全局注意力交错,在5:1的混合比例下具有128个token的滑动窗口。该模型通过多 Token 预测 (MTP) 对 27 万亿个 Token 进行了预训练,采用原生 32k 上下文长度,随后扩展到 256k。为了有效扩展训练后计算,MiMo-V2-Flash 引入了一种新颖的多教师按策略蒸馏 (MOPD) 范例。在此框架中,领域专业教师(例如,通过大规模强化学习进行培训)提供密集且 Token 级别的奖励,使学生模型能够完美掌握教师的专业知识。 MiMo-V2-Flash 可以与 DeepSeek-V3.2 和 Kimi-K2 等顶级开放权重模型相媲美,尽管它们分别只使用了它们总参数的 1/2 和 1/3。在推理过程中,通过将 MTP 重新用作推测解码的草案模型,MiMo-V2-Flash 通过三个 MTP 层实现了高达 3.6 的接受长度和 2.6 倍的解码加速。我们开源模型权重和三层 MTP 权重,以促进开放研究和社区协作 ...
我们引入了Longcat-Flash,这是专为计算效率和先进代理功能设计的560亿参数混合物(MOE)语言模型。由于需要可扩展效率,Longcat-Flash采用了两个新颖的设计:(a)零委托专家,这可以使动态计算预算分配并激活18.6B-31 ...
标记化是大型语言模型 (LLM) 的基本组成部分,但其对模型扩展和性能的影响尚未得到充分探讨。在本文中,我们介绍了 Over-Tokenized Transformers,这是一种新颖的框架,可以解耦输入和输出词汇以提高语言建模性能。具体来说,我们的方法扩大了输入词汇表以利用多克 Token 。通过大量的实验,我们发现了输入词汇量大小和训练损失之间的对数线性关系,证明无论模型大小如何,较大的输入词汇量都会持续增强模型性能。使用较大的输入词汇量,我们无需额外成本即可实现与双倍大小的基线相当的性能。我们的研究结果强调了标记化在缩放法则中的重要性,并为标记器设计提供了实用的见解,为更高效、更强大的 LLM 铺平了道路 ...
我们推出了 Motif-2-12.7B,这是一种新的开放权重基础模型,通过将架构创新与系统级优化相结合,推动大型语言模型的效率前沿。 Motif-2-12.7B 专为在计算预算有限的情况下实现可扩展的语言理解和强大的指令泛化而设计,它以 Motif-2.6B 为基础,集成了分组差分注意 (GDA),通过解开信号和噪声控制注意路径来提高表示效率。该模型使用课程驱动的数据调度程序对跨越不同语言、数学、科学和编程领域的 5.5 万亿个 Token 进行了预训练,该调度程序逐渐改变数据构成比例。该训练系统利用 MuonClip 优化器以及定制的高性能内核,包括融合 PolyNorm 激活和并行 Muon 算法,在大规模分布式环境中产生显着的吞吐量和内存效率增益。后期训练采用三阶段监督微调流程,连续增强一般指令的依从性、构图理解和语言准确性。 Motif-2-12.7B 在不同的基准测试中展示了具有竞争力的性能,表明深思熟虑的架构扩展和优化的训练设计可以与更大模型的功能相媲美 ...
我们提出 Ming-Flash-Omni,它是 Ming-Omni 的升级版本,建立在 Ling-Flash-2.0 的稀疏专家混合 (MoE) 变体之上,总参数为 1000 亿个,其中每个 Token 只有 61 亿个活跃参数 ...
模型合并是一种有效的训练后策略,用于集成来自共享基础模型的多个微调检查点的知识。现有方法在参数空间中运行,结合任务向量来减轻冲突,但仍然受到参数不一致的限制。我们提出了功能双锚(FDA),这是一个对输入表示空间进行建模的框架 ...
基础模型的最新进展凸显了多阶段训练的显着优势,特别强调训练中期作为连接训练前和训练后的重要阶段的出现。中期训练的特点是使用中间数据和计算资源,系统地增强数学、编码、推理和长上下文扩展等特定能力,同时保持基础能力。这项调查提供了大型语言模型 (LLM) 中期训练的正式定义,并研究了包含数据管理、训练策略和模型架构优化的优化框架 ...