arxiv SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

名称
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors
首页
https://yiyibooks.cn/arxiv/2406.14598v1/index.html
原始地址
https://arxiv.org/pdf/2406.14598
描述
评估一致的大语言模型 (LLM) 识别和拒绝不安全用户请求的能力对于安全、符合策略的部署至关重要。然而,现有的评估工作面临三个限制,我们通过我们提出的基准 SORRY-Bench 来解决这些限制。首先,现有方法经常使用不安全主题的粗粒度分类法,并且过度代表了一些细粒度主题 ...