随着多模态大型语言模型 (MLLM) 的快速发展,保护这些模型免受恶意输入的影响,同时使其与人类价值观保持一致已成为一项重大挑战。在本文中,我们研究了一个重要且尚未探索的问题,即成功越狱大型语言模型 (LLM) 的技术是否可以同样有效地越狱 MLLM。为了探讨这个问题,我们引入了 JailBreakV-28K,这是一个开创性的基准测试,旨在评估 LLM 越狱技术到 MLLM 的可迁移性,从而评估 MLLM 对抗各种越狱攻击的稳健性 ...
针对大型语言模型 (LLM) 的红队提出了各种越狱攻击,并揭示了 LLM 的脆弱保护措施。此外,一些方法不限于文本模态,通过扰乱视觉输入将越狱攻击扩展到多模态大型语言模型(MLLM)。然而,缺乏通用的评估基准使性能再现和公平比较变得复杂 ...
在本文中,我们研究了多模态大语言模型(MLLM)的无害对齐问题。我们对代表性 MLLM 的无害性能进行了系统的实证分析,并揭示了图像输入造成了 MLLM 的对齐漏洞。受此启发,我们提出了一种名为 HADES 的新颖越狱方法,该方法使用精心制作的图像隐藏并放大文本输入中恶意意图的危害性 ...
人们越来越关注大型语言模型(LLM)与人类价值观的一致性。然而,它们与视觉模块或视觉语言模型 (VLM) 集成的安全问题仍然相对未得到充分研究。在本文中,我们提出了一种针对 VLM 的新型越狱攻击,旨在当用户输入有害指令时绕过其安全屏障 ...
多模式大语言模型 (MLLM) 代理可以接收指令、捕获图像、从内存中检索历史记录并决定使用哪些工具。尽管如此,红队工作表明,对抗性图像/提示可能会越狱 MLLM 并导致不一致的行为。在这项工作中,我们报告了多代理环境中更严重的安全问题,称为传染性越狱 ...
现有的越狱多模态大型语言模型 (MLLM) 工作主要集中在模型输入中的对抗性示例,较少关注漏洞,尤其是模型 API 中的漏洞。为了填补研究空白,我们开展了以下工作:1)我们发现了GPT-4V中的系统提示泄漏漏洞。通过精心设计的对话,我们成功提取了GPT-4V的内部系统提示 ...
视觉语言(VL)预训练模型在许多多模态任务中表现出了其优越性。然而,此类模型的对抗鲁棒性尚未得到充分探索。现有的方法主要集中于探索白盒设置下的对抗鲁棒性,这是不现实的 ...
多模态对比学习的目的是在大量原始、未标记的图像-文本配对数据上训练通用特征提取器,例如 CLIP。这可以极大地有利于各种复杂的下游任务,包括跨模式图像文本检索和图像分类。尽管前景广阔,但跨模态预训练编码器的安全问题尚未得到充分探讨,特别是当预训练编码器公开用于商业用途时 ...
与传统的特定任务视觉模型不同,最近的大型 VLM 可以通过简单地使用不同的文本指令(即提示)轻松适应不同的视觉任务 ...
大型语言模型现在经过调整以符合其创建者的目标,即“有帮助且无害”。这些模型应该对用户的问题做出有益的回应,但拒绝回答可能造成伤害的请求。然而,敌对用户可以构造输入来规避对齐尝试 ...