基本信息 - Learn Your Reference Model for Real Good Alignment

arxiv Learn Your Reference Model for Real Good Alignment

阅读

Star 0

名称: Learn Your Reference Model for Real Good Alignment

首页: https://yiyibooks.cn/arxiv/2404.09656v1/index.html

原始地址: https://arxiv.org/html/2404.09656v1

描述

对齐问题的复杂性源于现有方法不稳定。研究人员不断发明各种技巧来解决这个缺点。例如，在语言模型对齐的基本人类反馈强化学习 (RLHF) 技术中，除了奖励最大化之外，可训练策略和 SFT 策略之间的 Kullback-Leibler 差异也被最小化 ...