dm616703的文档

Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation

大型语言模型（LLMS）在广泛的应用中表现出明显的实用性；但是，他们的部署受到安全漏洞的困扰，尤其是越狱攻击。这些攻击通过制定对抗性提示来操纵LLM，从而产生有害或不道德的内容。尽管目前关于越狱攻击的许多研究都集中在单转交互上，但它在很大程度上忽略了历史对话对模型行为的影响 ...

0 0 0 0 2025/03/13 arXiv:2503.08195v1 dm616703

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

评估一致的大语言模型 (LLM) 识别和拒绝不安全用户请求的能力对于安全、符合策略的部署至关重要。然而，现有的评估工作面临三个限制，我们通过我们提出的基准 SORRY-Bench 来解决这些限制。首先，现有方法经常使用不安全主题的粗粒度分类法，并且过度代表了一些细粒度主题 ...

0 0 0 0 2025/03/11 arXiv:2406.14598v2 dm616703

OR-Bench: An Over-Refusal Benchmark for Large Language Models

大型语言模型（LLMS）需要仔细的安全对准以防止恶意产出。尽管重大研究重点是减轻有害内容的产生，但增强的安全通常会带来过度狂欢的副作用，在这种情况下，LLMS可能会拒绝无害的提示，并且会变得较小。尽管已经在经验上观察到了过度互惠的问题，但由于制作提示的困难似乎有害但是良性的，因此系统的测量很具有挑战性 ...

0 0 0 0 2025/03/11 arXiv:2405.20947v2 dm616703

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

在快速发展的大型语言模型 (LLM) 领域，确保稳健的安全措施至关重要。为了满足这一关键需求，我们提出了 \emph{SALAD-Bench}，这是一个专门为评估 LLM、攻击和防御方法而设计的安全基准。 SALAD-Bench 以其广度而著称，以其规模大、丰富的多样性、跨越三个级别的复杂分类法和多功能性超越了传统基准 ...

0 0 0 0 2025/03/11 arXiv:2402.05044v4 dm616703

One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs

尽管大型语言模型（LLM）的安全性得到广泛的提高，但由熟练的人类对手制作的多转弯“越狱”对话即使是最复杂的护栏仍然可能违反。但是，这些多转弯攻击需要大量的手动努力，从而限制了它们的可扩展性。在这项工作中，我们介绍了一种名为多转弯转弯（M2S）的新颖方法，该方法系统地将多转弯的越狱提示转换为单转攻击 ...

0 0 0 0 2025/03/10 arXiv:2503.04856v1 dm616703

Jailbreaking is (Mostly) Simpler Than You Think

我们介绍了上下文合规性攻击（CCA），这是一种绕过AI安全机制的新颖，无优化的方法。与当前的方法不同，这些方法依赖于复杂的及时工程和计算密集的优化 - CCA利用了许多部署的AI系统固有的基本体系结构脆弱性。通过巧妙地操纵对话历史，CCA说服了该模型遵守制作的对话环境，从而触发受限行为 ...

0 0 0 0 2025/03/10 arXiv:2503.05264v1 dm616703

Red Teaming Visual Language Models

VLM（视觉模型）扩展了LLM（大语言模型）接受多模式输入的功能。由于已经验证了LLM可以通过特定的测试用例（称为红色组合）引起LLMS产生有害或不准确的内容，因此VLM在类似情况下的表现，尤其是与文本和视觉输入的结合在一起，仍然是一个问题。为了探索这个问题，我们提出了一个新颖的红色小组数据集RTVLM，其中包含10个子任务（e ...

0 0 0 0 2025/03/06 arXiv:2401.12915v1 dm616703

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

尽管视觉语言有效监督了微调在增强视觉大语模型（VLLM）的性能方面的有效性。但是，现有的视觉说明调谐数据集包括以下局限性：（1）指令注释质量：尽管现有的VLLM表现出强大的性能，但这些高级VLLM产生的指令仍可能遭受不准确的损失，例如幻觉。（2）说明和图像多样性：指令类型的有限范围以及图像数据中缺乏多样性可能会影响该模型产生多样化并更接近现实世界情景输出的能力 ...

0 0 0 0 2025/03/06 arXiv:2407.15838v2 dm616703

FC-Attack: Jailbreaking Large Vision-Language Models via Auto-Generated Flowcharts

大型视觉模型（LVLM）在某些实际应用中已变得强大并广泛采用。但是，最近的研究揭示了它们易受多模式越狱攻击的脆弱性，因此可以诱导该模型产生有害内容，从而导致安全风险。尽管大多数LVLM都进行了安全的一致性，但最近的研究表明，视觉方式仍然容易受到越狱攻击的影响 ...

0 0 0 0 2025/03/03 arXiv:2502.21059v1 dm616703

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models

多转弯越狱攻击通过使大型语言模型（LLM）参与迭代对话，暴露了关键的安全漏洞，模拟了现实世界中的人类互动。但是，现有的方法通常难以在语义连贯性与攻击效果之间取得平衡，从而导致语义漂移或无效的检测逃避。为了应对这一挑战，我们提出了一个新颖的多转越越狱框架，将有害的查询重新定义为良性的推理任务，并利用了LLMS的强大推理能力，以损害安全对齐 ...

0 0 0 0 2025/02/24 arXiv:2502.11054v3 dm616703