arxiv An Empirical Study on Eliciting and Improving R1-like Reasoning Models

名称
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
首页
https://yiyibooks.cn/arxiv/2503.04548v1/index.html
原始地址
https://arxiv.org/pdf/2503.04548
描述
在本报告中,我们介绍了第三份有关慢速思维模型的发展的技术报告,这是静止项目的一部分。随着技术途径变得更加清晰,扩展RL培训已成为实施此类推理模型的中心技术。我们系统地实验并记录了影响RL训练的各种因素的影响,对基本模型和微调模型进行实验 ...