dm616703的文档

dm616703

希望有一篇CCFA

JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

随着多模态大型语言模型 (MLLM) 的快速发展，保护这些模型免受恶意输入的影响，同时使其与人类价值观保持一致已成为一项重大挑战。在本文中，我们研究了一个重要且尚未探索的问题，即成功越狱大型语言模型 (LLM) 的技术是否可以同样有效地越狱 MLLM。为了探讨这个问题，我们引入了 JailBreakV-28K，这是一个开创性的基准测试，旨在评估 LLM 越狱技术到 MLLM 的可迁移性，从而评估 MLLM 对抗各种越狱攻击的稳健性 ...

0 0 0 0 2024/12/12 arXiv:2404.03027v4 dm616703

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

针对大型语言模型 (LLM) 的红队提出了各种越狱攻击，并揭示了 LLM 的脆弱保护措施。此外，一些方法不限于文本模态，通过扰乱视觉输入将越狱攻击扩展到多模态大型语言模型（MLLM）。然而，缺乏通用的评估基准使性能再现和公平比较变得复杂 ...

0 0 0 0 2024/12/12 arXiv:2404.03411v1 dm616703

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

在本文中，我们研究了多模态大语言模型（MLLM）的无害对齐问题。我们对代表性 MLLM 的无害性能进行了系统的实证分析，并揭示了图像输入造成了 MLLM 的对齐漏洞。受此启发，我们提出了一种名为 HADES 的新颖越狱方法，该方法使用精心制作的图像隐藏并放大文本输入中恶意意图的危害性 ...

0 0 0 0 2024/12/12 arXiv:2403.09792v2 dm616703

JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models

AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning

An Image Is Worth 1000 Lies: Adversarial Transferability across Prompts on Vision-Language Models

Are aligned neural networks adversarially aligned?

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）