基本信息

文件基本信息

名称

MiMo-V2-Flash Technical Report

首页

https://yiyibooks.cn/arxiv/2601.02780v2/index.html

原始地址

https://arxiv.org/pdf/2601.02780

描述

我们推出 MiMo-V2-Flash，这是一种专家混合 (MoE) 模型，具有 309B 总参数和 15B 活动参数，专为快速、强大的推理和代理功能而设计。 MiMo-V2-Flash采用混合注意力架构，将滑动窗口注意力（SWA）与全局注意力交错，在5:1的混合比例下具有128个token的滑动窗口。该模型通过多 Token 预测 (MTP) 对 27 万亿个 Token 进行了预训练，采用原生 32k 上下文长度，随后扩展到 256k。为了有效扩展训练后计算，MiMo-V2-Flash 引入了一种新颖的多教师按策略蒸馏 (MOPD) 范例。在此框架中，领域专业教师（例如，通过大规模强化学习进行培训）提供密集且 Token 级别的奖励，使学生模型能够完美掌握教师的专业知识。 MiMo-V2-Flash 可以与 DeepSeek-V3.2 和 Kimi-K2 等顶级开放权重模型相媲美，尽管它们分别只使用了它们总参数的 1/2 和 1/3。在推理过程中，通过将 MTP 重新用作推测解码的草案模型，MiMo-V2-Flash 通过三个 MTP 层实现了高达 3.6 的接受长度和 2.6 倍的解码加速。我们开源模型权重和三层 MTP 权重，以促进开放研究和社区协作 ...