arxiv Learn Your Reference Model for Real Good Alignment

名称
Learn Your Reference Model for Real Good Alignment
首页
https://yiyibooks.cn/arxiv/2404.09656v1/index.html
原始地址
https://arxiv.org/html/2404.09656v1
描述
对齐问题的复杂性源于现有方法不稳定。研究人员不断发明各种技巧来解决这个缺点。例如,在语言模型对齐的基本人类反馈强化学习 (RLHF) 技术中,除了奖励最大化之外,可训练策略和 SFT 策略之间的 Kullback-Leibler 差异也被最小化 ...