基本信息 - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

arxiv VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Star 0

阅读

名称: VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

首页: https://yiyibooks.cn/arxiv/2504.05118v2/index.html

原始地址: https://arxiv.org/pdf/2504.05118

描述

我们提出了针对推理模型的VAPO，基于价值的增强近端策略优化框架。这是一个针对基于价值范式中推理模型的新颖框架。基于QWEN 32B预培训模型的AIME 2024数据集VAPO的基准测试，达到了$ \ mathbf {60的最先进分数 ...

文件上传进度

0%

上传成功 0 个文件