本文重点关注针对多模态大语言模型 (MLLM) 的越狱攻击,试图引发 MLLM 对有害用户查询生成令人反感的响应。提出了一种基于最大似然的算法来查找 \emph{图像越狱提示} (imgJP),从而能够跨多个未见的提示和图像(即 ...

0 0 0 0 2024/12/11 arXiv:2402.02309v1 dm616703

随着多模式大型语言模型 (MLLM) 的出现和广泛部署,确保其安全性变得越来越重要。为了实现这一目标,需要我们通过探索攻击方法来主动发现MLLM的漏洞。因此,基于结构的越狱攻击(将有害的语义内容嵌入图像中)被提出来误导模型 ...

0 0 0 0 2024/12/11 arXiv:2405.20773v2 dm616703

近年来,随着大型模型的显着发展,大型视觉语言模型(LVLM)在广泛的多模态理解和推理任务中表现出了卓越的能力。与传统的大型语言模型(LLM)相比,LVLM 由于更接近多资源实际应用程序和多模态处理的复杂性,因此呈现出巨大的潜力和挑战。然而,LVLM 的漏洞尚未得到充分研究,在日常使用中存在潜在的安全风险 ...

0 0 0 0 2024/12/10 arXiv:2407.07403v2 dm616703

最近,人们对将视觉集成到大型语言模型 (LLM) 中的兴趣激增,例如 Flamingo 和 GPT-4 等视觉语言模型 (VLM)。本文阐明了这一趋势的安全影响。首先,我们强调视觉输入的连续和高维性质使其成为对抗对抗性攻击的薄弱环节,代表了视觉集成 LLM 的攻击面扩大了 ...

0 0 0 0 2024/12/08 arXiv:2306.13213v2 dm616703

我们引入了针对视觉语言模型 (VLM) 的新越狱攻击,该模型使用对齐的 LLM,并且能够抵御纯文本越狱攻击。具体来说,我们开发了针对对齐的跨模态攻击,将通过视觉编码器的对抗图像与文本提示配对,以打破语言模型的对齐。我们的攻击采用了一种新颖的组合策略,该策略将针对有毒嵌入的敌对图像与完成越狱的通用提示结合起来 ...

0 0 0 0 2024/12/06 arXiv:2307.14539v2 dm616703

随着大型语言模型(LLM)在许多现实应用中变得越来越普遍,理解和增强其对对抗性攻击的鲁棒性变得至关重要。现有的识别对抗性提示的方法往往侧重于特定领域,缺乏多样性,或者需要大量的人工注释。为了解决这些限制,我们提出了 Rainbow Teaming,这是一种新颖的黑盒方法,用于生成多样化的对抗性提示集合 ...

0 0 0 0 2024/12/05 arXiv:2402.16822v2 dm616703

我们引入了 WildTeaming,这是一个自动 LLM 安全红队框架,它可以挖掘野外用户与聊天机器人的交互,以发现 5.7K 个独特的新颖越狱策略集群,然后组合多种策略来系统地探索新颖的越狱。与之前通过招募人类工人、基于梯度的优化或 LLM 迭代修订进行红队的工作相比,我们的工作调查了没有被明确指示破坏系统的聊天机器人用户的越狱行为 ...

0 0 0 0 2024/12/03 arXiv:2406.18510v1 dm616703

深度神经网络(DNN)的可迁移性在图像和语言处理方面取得了重大进展。然而,由于表之间的异质性,这种 DNN 优势还远未在表格数据预测中得到充分利用(例如 ...

0 0 0 0 2024/12/02 arXiv:2403.01841v2 dm616703

最近,表预训练的话题引起了相当大的研究兴趣。然而,如何利用表格预训练来提高表格预测的性能仍然是一个悬而未决的挑战。在本文中,我们提出了 TapTap,这是利用表格预训练来增强模型进行表格预测的首次尝试 ...

0 0 0 0 2024/12/01 arXiv:2305.09696v1 dm616703

数学推理作为人类智能的核心能力,对机器的抽象思维和逻辑推理提出了独特的挑战。最近的大型预训练语言模型(例如 GPT-3)在以文本形式编写的数学推理任务(例如数学应用题(MWP))上取得了显着进展。然而,尚不清楚这些模型是否可以处理更复杂的问题,这些问题涉及异构信息(例如表格数据)的数学推理 ...

0 0 0 0 2024/12/01 arXiv:2209.14610v3 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)