arxiv Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

名称
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
首页
https://yiyibooks.cn/arxiv/2402.05808v2/index.html
原始地址
https://arxiv.org/pdf/2402.05808
描述
在本文中,我们提出了R$^3$:通过逆向课程强化学习(RL)进行学习推理,这是一种仅采用结果监督来实现大型语言模型过程监督的好处的新方法。将强化学习应用于复杂推理的核心挑战是识别一系列能够产生积极需要奖励的动作序列,并为优化提供适当的监督。结果监督为结果最终提供稀疏奖励,而消耗识别错误位置,而过程监督提供渐进奖励,但大量的手册注释... ...