arxiv Weak-to-Strong Jailbreaking on Large Language Models

名称
Weak-to-Strong Jailbreaking on Large Language Models
首页
https://yiyibooks.cn/arxiv/2401.17256v2/index.html
原始地址
https://arxiv.org/abs/2401.17256
描述
大型语言模型 (LLM) 很容易受到越狱攻击,从而导致有害、不道德或有偏见的文本生成。然而,现有的越狱方法的计算成本很高。在本文中,我们提出了从弱到强的越狱攻击,这是一种攻击对齐的 LLM 以产生有害文本的有效方法 ...