基本信息 - Rule Based Rewards for Language Model Safety

arxiv Rule Based Rewards for Language Model Safety

阅读

Star 0

名称: Rule Based Rewards for Language Model Safety

首页: https://yiyibooks.cn/arxiv/2411.01111v1/index.html

原始地址: https://arxiv.org/html/2411.01111v1

描述

基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而，在与安全相关的情况下，如果没有对人类注释者进行精确的指示，收集的数据可能会导致模型变得过于谨慎，或者以不良的方式做出响应，例如判断性的。此外，随着模型功能和使用模式的发展，可能需要添加或重新标记数据来修改安全行为，成本高昂 ...

0%

上传成功 0 个文件