基本信息

文件基本信息

名称

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

首页

原始地址

https://arxiv.org/pdf/2505.24298

描述

强化学习（RL）已成为培训大语言模型（LLM）的主要范式，尤其是用于推理任务的范式。 LLM的有效RL需要大量的并行化，并迫切需要有效的训练系统。在批处理设置中，大多数现有的大型LLM大型RL系统都是同步的，交替的生成和培训，在该设置中，每个培训批次中的汇总都是由同一模型生成的 ...