arxiv SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

名称
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
首页
https://yiyibooks.cn/arxiv/2501.17161v1/index.html
原始地址
https://arxiv.org/abs/2501.17161
描述
监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...