- 名称
- GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
- 描述
训练后在精炼和调整大型语言模型以满足特定任务和人类偏好方面起着至关重要的作用。尽管训练后技术的最新进步,例如小组相对政策优化(GRPO),但利用相对奖励评分来提高采样以实现卓越的表现,但这些方法通常会遭受训练不稳定的影响,从而限制了其实际采用。为了应对这一挑战,我们提出了小组差异策略优化(GVPO) ...
训练后在精炼和调整大型语言模型以满足特定任务和人类偏好方面起着至关重要的作用。尽管训练后技术的最新进步,例如小组相对政策优化(GRPO),但利用相对奖励评分来提高采样以实现卓越的表现,但这些方法通常会遭受训练不稳定的影响,从而限制了其实际采用。为了应对这一挑战,我们提出了小组差异策略优化(GVPO) ...