- 名称
- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
- 描述
监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...
监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...