基本信息 - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

arxiv GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

Star 0

阅读

名称: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training

首页: https://yiyibooks.cn/arxiv/2504.19599v2/index.html

原始地址: https://arxiv.org/abs/2504.19599

描述

训练后在精炼和调整大型语言模型以满足特定任务和人类偏好方面起着至关重要的作用。尽管训练后技术的最新进步，例如小组相对政策优化（GRPO），但利用相对奖励评分来提高采样以实现卓越的表现，但这些方法通常会遭受训练不稳定的影响，从而限制了其实际采用。为了应对这一挑战，我们提出了小组差异策略优化（GVPO） ...

文件上传进度

0%

上传成功 0 个文件