/documents/71975/

基本信息

文件基本信息

名称
Ministral 3
描述
我们推出了 Ministral 3 系列,这是一系列参数高效的密集语言模型,专为计算和内存受限的应用程序而设计,提供三种模型大小:3B、8B 和 14B 参数。对于每种模型大小,我们发布了三种变体:用于通用用途的预训练基础模型、经过微调的指令以及用于解决复杂问题的推理模型。此外,我们还介绍了通过级联蒸馏(Cascade Distillation)、迭代修剪和蒸馏技术持续训练来推导 Ministral 3 模型的方法。每个模型都具有图像理解功能,均在 Apache 2.0 许可下 ...