/documents/69709/
基本信息
文件基本信息
名称
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
描述
强化学习(RL)已成为培训大语言模型(LLM)的主要范式,尤其是用于推理任务的范式。 LLM的有效RL需要大量的并行化,并迫切需要有效的训练系统。在批处理设置中,大多数现有的大型LLM大型RL系统都是同步的,交替的生成和培训,在该设置中,每个培训批次中的汇总都是由同一模型生成的 ...