多模式大语言模型(MLLMS)弥合了视觉和文本数据之间的差距,从而实现了一系列高级应用程序。但是,视觉元素之间的复杂内部互动及其与文本的一致性可能引入漏洞,可以利用这些漏洞来绕过安全机制。为了解决这个问题,我们分析图像内容与任务之间的关系,发现子图像的复杂性而不是其内容是关键 ...
人类容易出现认知扭曲 - 偏见的思维模式会导致对特定刺激的反应,尽管在非常不同的情况下。本文表明,先进的多模式大语言模型(MLLM)表现出类似的趋势。尽管这些模型旨在在安全机制下响应查询,但他们有时会在某些视觉刺激的存在下拒绝无害的查询,而无视其上下文的良性本质 ...
在本文中,我们研究了多模态大语言模型(MLLM)的无害对齐问题。我们对代表性 MLLM 的无害性能进行了系统的实证分析,并揭示了图像输入造成了 MLLM 的对齐漏洞。受此启发,我们提出了一种名为 HADES 的新颖越狱方法,该方法使用精心制作的图像隐藏并放大文本输入中恶意意图的危害性 ...
视觉语言模型(VLM)的出现在理解多模式信息方面带来了前所未有的进步。 VLMS中文本语义和视觉语义的结合非常复杂且多样,这使得这些模型的安全对齐变得具有挑战性。此外,由于对VLM的安全对准有限的研究有限,因此缺乏大规模的高质量数据集 ...
虽然大型语言模型 (LLM) 显示出多种功能,但它们仍会继续生成有害、有偏见和有毒的内容,人为设计的越狱盛行就证明了这一点。在这项工作中,我们提出了带有修剪的攻击树(TAP),这是一种生成越狱的自动化方法,只需要对目标 LLM 进行黑盒访问。 TAP 利用 LLM 使用思想树推理迭代地细化候选(攻击)提示,直到生成的提示之一越狱目标 ...
最近对商业大型语言模型 (LLM) 的探索表明,非专家用户可以通过简单地操作提示来越狱 LLM;导致退化的输出行为、隐私和安全漏洞、攻击性输出以及违反内容监管政策。已经进行了有限的研究来形式化和分析这些攻击及其缓解措施。我们通过提出已知(和可能的)越狱的形式主义和分类法来弥补这一差距 ...
大型语言模型 (LLM) 在各种任务中都取得了显着的成功,但其安全性和生成有害内容的风险仍然是紧迫的问题。在本文中,我们深入研究了情境学习(ICL)在调节 LLM 一致性方面的潜力。具体来说,我们提出了上下文攻击(ICA)和上下文防御(ICD),前者利用有害的演示来颠覆 LLM,后者通过证明拒绝产生有害响应的示例来增强模型的弹性 ...
多模态大语言模型(MLLM)的安全问题已逐渐成为各种应用中的重要问题。令人惊讶的是,之前的工作表明了一种反直觉的现象,即使用文本遗忘来对齐 MLLM 可以实现与使用图像文本对训练的 MLLM 相当的安全性能。为了解释这种反直觉的现象,我们在现有的多模式安全基准中发现了视觉安全信息泄漏(VSIL)问题,即 ...
多模态大语言模型(MLLM)已经取得了令人印象深刻的性能,并已在商业应用中投入实际使用,但它们仍然存在潜在的安全机制漏洞。越狱攻击是红队方法,旨在绕过安全机制并发现 MLLM 的潜在风险。现有MLLM的越狱方法往往通过复杂的优化方法或精心设计的图像和文字提示来绕过模型的安全机制 ...
虽然与安全相关的大语言模型(LLM)越来越多地用作强大系统(例如多代理框架)的基石来解决复杂的现实世界问题,但它们仍然遭受潜在的对抗性查询,例如越狱攻击,这些查询试图诱导有害内容。研究攻击方法可以让我们更好地理解LLM的局限性,并在有用性和安全性之间做出权衡。然而,现有的越狱攻击主要基于不透明的优化技术(例如 ...