基于小组的增强学习(RL)的最新进展已在数学推理等单转任务中驱动了前沿模型(LLMS)。但是,它们对长跑LLM代理训练的可伸缩性仍然有限。与静态任务不同,代理环境的互动在许多步骤中展开,并且通常会产生稀疏或延迟的奖励,从而使各个步骤的信贷分配变得更加具有挑战性 ...

0 0 0 0 2025/11/05 arXiv:2505.10978v3 Damelard

缩放模型的规模和培训数据已导致大语言模型(LLM)的性能取得了长足进步。但是,这种方法的回报减少需要替代方法来提高模型功能,尤其是在需要高级推理的任务中。利用长长的思想链的大型推理模型为解决问题的能力带来了前所未有的突破,但与长代相关的大量部署成本 ...

0 0 0 0 2025/11/05 arXiv:2502.04463v4 Damelard

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)