基本信息 - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

arxiv SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

阅读

Star 0

名称: SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

首页: https://yiyibooks.cn/arxiv/2406.14598v1/index.html

原始地址: https://arxiv.org/pdf/2406.14598

描述

评估一致的大语言模型 (LLM) 识别和拒绝不安全用户请求的能力对于安全、符合策略的部署至关重要。然而，现有的评估工作面临三个限制，我们通过我们提出的基准 SORRY-Bench 来解决这些限制。首先，现有方法经常使用不安全主题的粗粒度分类法，并且过度代表了一些细粒度主题 ...

0%

上传成功 0 个文件