基于小组的增强学习(RL)的最新进展已在数学推理等单转任务中驱动了前沿模型(LLMS)。但是,它们对长跑LLM代理训练的可伸缩性仍然有限。与静态任务不同,代理环境的互动在许多步骤中展开,并且通常会产生稀疏或延迟的奖励,从而使各个步骤的信贷分配变得更加具有挑战性 ...
缩放模型的规模和培训数据已导致大语言模型(LLM)的性能取得了长足进步。但是,这种方法的回报减少需要替代方法来提高模型功能,尤其是在需要高级推理的任务中。利用长长的思想链的大型推理模型为解决问题的能力带来了前所未有的突破,但与长代相关的大量部署成本 ...