- 名称
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- 描述
由于其复杂性和结构化的性质,数学推理对语言模型提出了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B,它继续使用来自 Common Crawl 的 120B 数学相关标记以及自然语言和代码数据来预训练 DeepSeek-Coder-Base-v1.5 7B。 DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,在竞赛级 MATH 基准测试中取得了 51.7% 的骄人成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。 DeepSeekMath 7B 的 64 个样本的自一致性在 MATH 上达到 60.9%。 DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择管道来利用公开可用的网络数据的巨大潜力。其次,我们介绍组相对策略优化(GRPO),它是邻近策略优化(PPO)的变体,它增强数学推理能力,同时优化 PPO 的内存使用 ...