arxiv VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

名称
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
首页
https://yiyibooks.cn/arxiv/2504.05118v2/index.html
原始地址
https://arxiv.org/pdf/2504.05118
描述
我们提出了针对推理模型的VAPO,基于价值的增强近端策略优化框架。这是一个针对基于价值范式中推理模型的新颖框架。基于QWEN 32B预培训模型的AIME 2024数据集VAPO的基准测试,达到了$ \ mathbf {60的最先进分数 ...