- 名称
- OLMoE: Open Mixture-of-Experts Language Models
- 描述
我们引入 OLMoE,这是一种完全开放、最先进的语言模型,利用稀疏专家混合 (MoE)。 OLMoE-1B-7B 有 70 亿个 (B) 参数,但每个输入 Token 仅使用 1B。我们在 5 万亿个 Token 上对其进行预训练,并进一步对其进行调整以创建 OLMoE-1B-7B-Instruct ...
我们引入 OLMoE,这是一种完全开放、最先进的语言模型,利用稀疏专家混合 (MoE)。 OLMoE-1B-7B 有 70 亿个 (B) 参数,但每个输入 Token 仅使用 1B。我们在 5 万亿个 Token 上对其进行预训练,并进一步对其进行调整以创建 OLMoE-1B-7B-Instruct ...