arxiv Rule Based Rewards for Language Model Safety

名称
Rule Based Rewards for Language Model Safety
首页
https://yiyibooks.cn/arxiv/2411.01111v1/index.html
原始地址
https://arxiv.org/html/2411.01111v1
描述
基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而,在与安全相关的情况下,如果没有对人类注释者进行精确的指示,收集的数据可能会导致模型变得过于谨慎,或者以不良的方式做出响应,例如判断性的。此外,随着模型功能和使用模式的发展,可能需要添加或重新标记数据来修改安全行为,成本高昂 ...