arxiv Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

名称
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
首页
https://yiyibooks.cn/arxiv/2501.02790v1/index.html
原始地址
https://arxiv.org/abs/2501.02790
描述
从人类反馈(RLHF)中学习的强化已被广泛采用,以使语言模型(LMS)与人类的偏好相结合。先前的RLHF作品通常采用匪徒配方,尽管直观,但它忽略了LM生成的顺序性质,可能会遇到稀疏的奖励问题。尽管最近的作品提出了密集的 Token 级别的rlhf,但将每个 Token 视为一项措施可能会超级奖励,以适当奖励任务 ...