- 名称
- Learn Your Reference Model for Real Good Alignment
- 描述
对齐问题的复杂性源于现有方法不稳定。研究人员不断发明各种技巧来解决这个缺点。例如,在语言模型对齐的基本人类反馈强化学习 (RLHF) 技术中,除了奖励最大化之外,可训练策略和 SFT 策略之间的 Kullback-Leibler 差异也被最小化 ...
对齐问题的复杂性源于现有方法不稳定。研究人员不断发明各种技巧来解决这个缺点。例如,在语言模型对齐的基本人类反馈强化学习 (RLHF) 技术中,除了奖励最大化之外,可训练策略和 SFT 策略之间的 Kullback-Leibler 差异也被最小化 ...