基本信息 - Weak-to-Strong Jailbreaking on Large Language Models

arxiv Weak-to-Strong Jailbreaking on Large Language Models

阅读

Star 0

名称: Weak-to-Strong Jailbreaking on Large Language Models

首页: https://yiyibooks.cn/arxiv/2401.17256v2/index.html

原始地址: https://arxiv.org/abs/2401.17256

描述

大型语言模型 (LLM) 很容易受到越狱攻击，从而导致有害、不道德或有偏见的文本生成。然而，现有的越狱方法的计算成本很高。在本文中，我们提出了从弱到强的越狱攻击，这是一种攻击对齐的 LLM 以产生有害文本的有效方法 ...