基本信息 - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

arxiv Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

阅读

Star 0

名称: Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

首页: https://yiyibooks.cn/arxiv/2402.05808v2/index.html

原始地址: https://arxiv.org/pdf/2402.05808

描述

在本文中，我们提出了R$^3$：通过逆向课程强化学习（RL）进行学习推理，这是一种仅采用结果监督来实现大型语言模型过程监督的好处的新方法。将强化学习应用于复杂推理的核心挑战是识别一系列能够产生积极需要奖励的动作序列，并为优化提供适当的监督。结果监督为结果最终提供稀疏奖励，而消耗识别错误位置，而过程监督提供渐进奖励，但大量的手册注释... ...

文件上传进度

0%

上传成功 0 个文件