/documents/71958/

基本信息

文件基本信息

名称
MiMo-V2-Flash Technical Report
描述
我们推出 MiMo-V2-Flash,这是一种专家混合 (MoE) 模型,具有 309B 总参数和 15B 活动参数,专为快速、强大的推理和代理功能而设计。 MiMo-V2-Flash采用混合注意力架构,将滑动窗口注意力(SWA)与全局注意力交错,在5:1的混合比例下具有128个token的滑动窗口。该模型通过多 Token 预测 (MTP) 对 27 万亿个 Token 进行了预训练,采用原生 32k 上下文长度,随后扩展到 256k。为了有效扩展训练后计算,MiMo-V2-Flash 引入了一种新颖的多教师按策略蒸馏 (MOPD) 范例。在此框架中,领域专业教师(例如,通过大规模强化学习进行培训)提供密集且 Token 级别的奖励,使学生模型能够完美掌握教师的专业知识。 MiMo-V2-Flash 可以与 DeepSeek-V3.2 和 Kimi-K2 等顶级开放权重模型相媲美,尽管它们分别只使用了它们总参数的 1/2 和 1/3。在推理过程中,通过将 MTP 重新用作推测解码的草案模型,MiMo-V2-Flash 通过三个 MTP 层实现了高达 3.6 的接受长度和 2.6 倍的解码加速。我们开源模型权重和三层 MTP 权重,以促进开放研究和社区协作 ...