arxiv TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback

名称
TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback
首页
https://yiyibooks.cn/arxiv/2407.16574v2/index.html
原始地址
https://arxiv.org/abs/2407.16574
描述
人类反馈强化学习 (RLHF) 利用人类偏好数据来训练语言模型,使其更符合人类本质。然而,这些人类偏好数据是在序列级别进行标记的,导致序列级别偏好标签和标记之间不匹配,而标记是从语言模型自回归生成的。尽管最近的几种方法试图提供 Token 级别(即 ...